南开大学21春《大数据开发技术》在线作业二满分答案93

上传人:住在****他 文档编号:97745476 上传时间:2022-05-27 格式:DOCX 页数:13 大小:14.13KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业二满分答案93_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案93_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案93_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学21春大数据开发技术在线作业二满分答案1. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案:C2. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案:BD3. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B4. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C5. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C6. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A7. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B8. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D9. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A10. Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。( )T.对F.错参考答案:T11. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案:F12. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案:A13. var a=10; for(aA.10B.11C.20D.19参考答案:D14. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案:A15. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A16. Scala列表方法中丢弃前n个元素,并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案:A17. ( )是Spark的核心,提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案:A18. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案:A19. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案:B20. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A21. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B22. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:B23. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:B24. 聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)。( )A.对B.错参考答案:A25. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC26. 使用回溯法进行状态空间树裁剪分支时一般有两个标准:约束条件和目标函数的界,N皇后问题和0/1背包问题正好是两种不同的类型,其中同时使用约束条件和目标函数的界进行裁剪的是0/1背包问题,只使用约束条件进行裁剪的是N皇后问题。( )A.错误B.正确参考答案:B27. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD28. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B29. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A30. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB31. RDD是一个( )的数据结构A.可读写B.只读的C.容错的D.可进行并行操作的参考答案:BCD32. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD33. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案:B34. Spark GraphX中类Graph的reverse方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:A35. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D36. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD37. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A38. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:B39. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B40. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D41. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B42. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A43. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B44. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B45. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B46. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案:B47. 下列Scala代码应输出( ):var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) sum+=a+b;println(sum);A.36B.35C.11D.12参考答案:D48. Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案:B49. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D50. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案:A51. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A52. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C53. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD54. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B55. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息,构造最优解。( )A.错误B.正确参考答案:A56. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:A57. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B58. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B59. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T60. 图结构中如果无重复的边或者顶点到自身的边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:D
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!