南开大学21春《大数据开发技术》在线作业一满分答案58

资源描述

南开大学21春大数据开发技术在线作业一满分答案1. PairRDD的( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A2. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A3. 非结构化数据是指非纯文本类数据，没有标准格式，无法直接解析出相应的值。( )A.对B.错参考答案：A4. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案：A5. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T6. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD7. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A8. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB9. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F10. Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：A11. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A12. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD13. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B14. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B15. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B16. SQL Azure体系结构层中哪层相当于网关，相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：B17. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC18. 在图结构中，每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案：B19. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B20. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C21. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案：A22. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD23. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案：A24. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：D25. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案：B26. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A27. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD28. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A29. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B30. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )T.对F.错参考答案：F31. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A32. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A33. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B34. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A35. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B36. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：C37. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B38. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D39. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案：B40. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B41. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T42. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B.错参考答案：A43. 居民通过健康云平台中的数据，了解健康情况，防患于未然; 医疗机构通过对远程监控系统中的数据分析，缩短住院时间，提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案：A44. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD45. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )T.对F.错参考答案：F46. ( )是Spark的核心，提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案：A47. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B48. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D49. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案：ABCD50. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B51. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A52. RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A53. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F54. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A55. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE56. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C57. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB58. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F59. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD60. RDD的flatMap操作是将函数应用于RDD之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案：A

展开阅读全文

南开大学21春《大数据开发技术》在线作业一满分答案58

最新文档