南开大学22春《大数据开发技术》在线作业三及答案参考44

资源描述

南开大学22春大数据开发技术在线作业三及答案参考1. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：A2. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD3. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案：B4. Scala函数组合器中flatmap结合了map和flatten的功能，接收一个可以处理嵌套列表的函数，然后把返回结果连接起来。( )A.正确B.错误参考答案：A5. SQL Azure体系结构层中哪层相当于网关，相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：B6. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F7. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A8. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B9. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案：D10. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B11. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD12. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B13. 动态规划算法的基本思想是将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案：B14. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A15. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B16. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC17. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A18. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD19. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B20. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案：B21. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C22. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A23. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B24. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A25. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：C26. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B27. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A28. Scala中如果函数中的每个参数在函数中最多只出现一次，则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案：B29. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD30. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T31. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D32. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A33. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB34. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案：B35. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案：C36. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C37. 按照数据量的大小，可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案：A38. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案：A39. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE40. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A41. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B42. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B43. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案：B44. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A45. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C46. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B47. 阿里云RDS中一个实例可以创建多个数据库，在实例内数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案：A48. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A49. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD50. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD51. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C52. Spark Streming中( )函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案：D53. Scala类通过子类化和基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D54. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC55. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B56. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB57. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B58. 分支限界法解最大团问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：B59. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案：B60. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F

展开阅读全文

南开大学22春《大数据开发技术》在线作业三及答案参考44

最新文档