南开大学22春《大数据开发技术》补考试题库答案参考70

资源描述

南开大学22春大数据开发技术补考试题库答案参考1. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD2. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B3. 设计动态规划算法的主要步骤有5步。( )A.错误B.正确参考答案：A4. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D5. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B6. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B7. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A8. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A9. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B10. ( )是Spark的核心，提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案：A11. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案：D12. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案：C13. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B14. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案：ABC15. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B16. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B17. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：A18. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C19. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC20. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C21. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D22. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F23. var a=10; for(aA.10B.11C.20D.19参考答案：D24. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC25. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B26. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T27. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D28. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B29. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB30. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD31. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案：A32. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B33. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD34. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B35. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB36. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A37. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A38. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A39. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A40. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A41. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A42. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F43. 默认情况下，Scala 使用的是可变集合。( )T.对F.错参考答案：F44. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B45. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C46. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C47. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A48. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D49. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A50. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A

展开阅读全文

南开大学22春《大数据开发技术》补考试题库答案参考70

最新文档