南开大学21春《大数据开发技术》离线作业2参考答案59

上传人:住在****她 文档编号:97955855 上传时间:2022-05-28 格式:DOCX 页数:11 大小:13.18KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》离线作业2参考答案59_第1页
第1页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案59_第2页
第2页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案59_第3页
第3页 / 共11页
点击查看更多>>
资源描述
南开大学21春大数据开发技术离线作业2参考答案1. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D2. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案:T3. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A4. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C5. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B6. Spark Streming中( )函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案:D7. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A8. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B9. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B10. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T11. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A12. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案:B13. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T14. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B15. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案:T16. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案:B17. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B18. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案:A19. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B20. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A21. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A22. Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:D23. Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来。( )A.正确B.错误参考答案:A24. 图结构中如果任意两个顶点之间都存在边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:A25. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案:C26. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B27. 针对流数据,“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案:A28. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD29. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A30. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A31. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC32. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A33. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD34. Dstream窗口操作中( )方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:D35. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C36. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D37. Hive提供了大数据批处理计算功能。( )A.正确B.错误参考答案:B38. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC39. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案:T40. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A41. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D42. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD43. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案:F44. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案:A45. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B46. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C47. 在Storm的工作流程中,对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案:B48. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B49. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案:B50. 感知式系统的广泛使用 人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!