南开大学21春《大数据开发技术》在线作业二满分答案2

资源描述

南开大学21春大数据开发技术在线作业二满分答案1. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B2. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C3. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B4. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B5. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D6. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B7. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：A8. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：D9. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A10. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC11. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C12. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B13. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A14. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案：F15. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B16. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B17. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案：ABCD18. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A19. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F20. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D21. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B22. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F23. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案：B24. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A25. Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C26. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B27. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑，还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案：B28. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案：B29. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D30. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD31. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B32. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案：B33. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F34. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C35. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B36. 聚类分析(Cluster analysis)简称聚类(Clustering)，是把数据对象划分成子集(类)的过程，每个子集称为一个簇(Cluster)。( )A.对B.错参考答案：A37. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A38. 居民通过健康云平台中的数据，了解健康情况，防患于未然; 医疗机构通过对远程监控系统中的数据分析，缩短住院时间，提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案：A39. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案：B40. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：D41. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T42. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案：A43. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B44. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A45. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB46. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案：D47. var a=10; for(aA.10B.11C.20D.19参考答案：D48. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A49. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案：B50. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C51. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B52. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案：A53. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD54. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案：A55. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C56. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案：B57. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )T.对F.错参考答案：F58. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中，数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案：A59. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB60. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C

展开阅读全文

南开大学21春《大数据开发技术》在线作业二满分答案2

最新文档