南开大学22春《大数据开发技术》在线作业一及答案参考69

资源描述

南开大学22春大数据开发技术在线作业一及答案参考1. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T2. 感知式系统的广泛使用人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案：A3. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案：B4. 传统数据处理流程，用户需要主动发起查询或者定时查询;流处理流程中，可以实时查询。( )A.正确B.错误参考答案：A5. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B6. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案：BC7. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE8. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C9. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中，数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案：A10. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC11. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C12. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD13. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A14. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A15. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD16. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD17. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案：B18. Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。( )T.对F.错参考答案：F19. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B20. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A21. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案：B22. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C23. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C24. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：D25. 分支限界法解旅行售货员问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：A26. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B27. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案：ABCD28. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C29. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A30. HDFS中客户端在读取到数据后，会采用( )对数据块进行校验，以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案：AC31. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案：A32. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案：B33. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案：C34. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D35. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B36. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A37. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：A38. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A39. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B40. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D41. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C42. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案：D43. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C44. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案：D45. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC46. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B47. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B48. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A49. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B50. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD51. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案：T52. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案：D53. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C54. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A55. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案：B56. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案：A57. 可使用( )，( )，( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案：BCD58. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A59. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B60. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B

展开阅读全文

南开大学22春《大数据开发技术》在线作业一及答案参考69

最新文档