南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考48

上传人:住在山****ck 文档编号:85088570 上传时间:2022-05-05 格式:DOCX 页数:13 大小:14.24KB
返回 下载 相关 举报
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考48_第1页
第1页 / 共13页
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考48_第2页
第2页 / 共13页
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考48_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学2021年12月大数据开发技术期末考核试题库及答案参考1. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B2. 早期对于流计算的研究多数是基于对传统数据库处理的流式化,即实时数据库,很少研究流计算框架。( )A.正确B.错误参考答案:A3. 流计算是针对流数据的实时计算,可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案:ABCD4. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B5. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:D6. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案:B7. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A8. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B9. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B10. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A11. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D12. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A13. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A14. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB15. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B16. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案:B17. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C18. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C19. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案:B20. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:C21. 非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。( )A.对B.错参考答案:A22. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案:A23. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案:C24. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A25. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案:B26. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案:B27. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A28. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B29. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:D30. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B31. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A32. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案:A33. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C34. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A35. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案:ABC36. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A37. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C38. 大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案:A39. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案:BD40. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B41. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A42. Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:B43. 使用回溯法进行状态空间树裁剪分支时一般有两个标准:约束条件和目标函数的界,N皇后问题和0/1背包问题正好是两种不同的类型,其中同时使用约束条件和目标函数的界进行裁剪的是0/1背包问题,只使用约束条件进行裁剪的是N皇后问题。( )A.错误B.正确参考答案:B44. Mllib实现了一些常见的机器学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD45. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B46. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD47. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B48. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B49. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A50. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B51. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A52. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B53. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B54. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A55. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案:A56. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A57. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案:C58. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案:B59. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C60. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!