南开大学22春《大数据开发技术》在线作业一及答案参考100

资源描述

南开大学22春大数据开发技术在线作业一及答案参考1. 动态规划算法的基本思想是将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案：B2. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案：A3. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD4. Scala中如果函数中的每个参数在函数中最多只出现一次，则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案：B5. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C6. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A7. 亚马逊的云服务提供了多达几十种服务，涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案：A8. RDD的sortBy排序默认是升序。( )T.对F.错参考答案：T9. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B10. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A11. Scala是一种纯面向对象的语言，每个值都是对象。( )T.对F.错参考答案：T12. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC13. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F14. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A15. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A16. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A17. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B18. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：D19. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A20. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案：F21. ( )和( )，它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案：AC22. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A23. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B24. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A25. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A26. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：D27. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题，这些子问题互相独立且与原问题相同。递归地解这些子问题，然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案：B28. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C29. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A30. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B31. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案：B32. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD33. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案：A34. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A35. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A36. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC37. MapReduce中Client会跟踪任务的执行进度、资源使用量等信息。( )A.正确B.错误参考答案：B38. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B39. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案：A40. 在HBase中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。( )A.正确B.错误参考答案：B41. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B42. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B43. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案：A44. Scala类通过子类化和基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D45. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B46. Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C47. Hbase中( )是最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案：C48. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A49. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C50. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD51. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD52. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：A53. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B54. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD55. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A56. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD57. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B58. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B59. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC60. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B

展开阅读全文

南开大学22春《大数据开发技术》在线作业一及答案参考100

最新文档