南开大学22春《大数据开发技术》在线作业二及答案参考9

资源描述

南开大学22春大数据开发技术在线作业二及答案参考1. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A2. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案：B3. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F4. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C5. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD6. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B7. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC8. Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：A9. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B10. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B11. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC12. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B13. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F14. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D15. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC16. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案：A17. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案：B18. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：C19. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案：B20. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B21. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案：ABCD22. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC23. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案：B24. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B25. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D26. 关于分布式并行编程，以下说法错误的是( )。A.“摩尔定律”，CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后，人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案：A27. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案：B28. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D29. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A30. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案：D31. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A32. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B33. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案：B34. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B35. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D36. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D37. var a=10; for(aA.10B.11C.20D.19参考答案：D38. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE39. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE40. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B41. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B42. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB43. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B44. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案：B45. RDD的sortBy排序默认是升序。( )T.对F.错参考答案：T46. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案：T47. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A48. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A49. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A50. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B51. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD52. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A53. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A54. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B.错参考答案：A55. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案：D56. 可使用( )，( )，( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案：BCD57. 感知式系统的广泛使用人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案：A58. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案：B59. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B60. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案：BC

展开阅读全文

南开大学22春《大数据开发技术》在线作业二及答案参考9

最新文档