南开大学22春《大数据开发技术》在线作业一及答案参考69

上传人:住在山****ck 文档编号:86851081 上传时间:2022-05-08 格式:DOCX 页数:13 大小:13.96KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》在线作业一及答案参考69_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》在线作业一及答案参考69_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》在线作业一及答案参考69_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学22春大数据开发技术在线作业一及答案参考1. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案:T2. 感知式系统的广泛使用 人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A3. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B4. 传统数据处理流程,用户需要主动发起查询或者定时查询;流处理流程中,可以实时查询。( )A.正确B.错误参考答案:A5. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B6. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案:BC7. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE8. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C9. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A10. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC11. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C12. Mllib实现了一些常见的机器学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD13. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A14. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A15. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD16. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案:ABCD17. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案:B18. Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。( )T.对F.错参考答案:F19. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B20. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:A21. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案:B22. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案:C23. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C24. Dstream窗口操作中( )方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:D25. 分支限界法解旅行售货员问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A26. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B27. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD28. Scala源代码被编译成( )字节码,所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案:C29. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A30. HDFS中客户端在读取到数据后,会采用( )对数据块进行校验,以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案:AC31. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A32. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案:B33. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C34. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D35. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B36. Spark Streming中DStream可以通过外部数据源(Kafka,Flume,Twitter等)来获取,也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案:A37. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:A38. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案:A39. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:B40. Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:D41. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C42. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D43. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C44. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案:D45. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC46. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B47. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B48. 早期对于流计算的研究多数是基于对传统数据库处理的流式化,即实时数据库,很少研究流计算框架。( )A.正确B.错误参考答案:A49. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B50. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD51. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案:T52. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D53. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C54. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A55. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案:B56. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案:A57. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD58. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:A59. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B60. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!