南开大学22春《大数据开发技术》在线作业二及答案参考9

上传人:住在****她 文档编号:86925748 上传时间:2022-05-08 格式:DOCX 页数:13 大小:13.84KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》在线作业二及答案参考9_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》在线作业二及答案参考9_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》在线作业二及答案参考9_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学22春大数据开发技术在线作业二及答案参考1. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A2. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案:B3. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F4. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C5. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD6. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B7. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC8. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A9. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B10. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B11. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC12. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B13. RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。( )T.对F.错参考答案:F14. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:D15. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC16. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A17. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案:B18. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:C19. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案:B20. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B21. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD22. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC23. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B24. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案:B25. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D26. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A27. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案:B28. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D29. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A30. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D31. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A32. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B33. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案:B34. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B35. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D36. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D37. var a=10; for(aA.10B.11C.20D.19参考答案:D38. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案:ABCE39. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE40. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案:B41. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B42. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB43. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法,其中不需要排序的是动态规划,需要排序的是回溯法,分支限界法。( )A.错误B.正确参考答案:B44. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B45. RDD的sortBy排序默认是升序。( )T.对F.错参考答案:T46. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案:T47. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A48. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案:A49. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A50. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案:B51. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD52. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A53. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A54. 内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。( )A.对B.错参考答案:A55. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案:D56. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD57. 感知式系统的广泛使用 人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A58. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B59. MapReduce设计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B60. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案:BC
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!