南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考97

上传人:住在山****ck 文档编号:85006774 上传时间:2022-05-05 格式:DOCX 页数:13 大小:13.75KB
返回 下载 相关 举报
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考97_第1页
第1页 / 共13页
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考97_第2页
第2页 / 共13页
南开大学2021年12月《大数据开发技术》期末考核试题库及答案参考97_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学2021年12月大数据开发技术期末考核试题库及答案参考1. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A2. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A3. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB4. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T5. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案:B6. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE7. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A8. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F9. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A10. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D11. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A12. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案:T13. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案:B14. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B15. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B16. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案:T17. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B18. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB19. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案:A20. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D21. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A22. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案:D23. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B24. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案:A25. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:C26. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C27. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案:AB28. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B29. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:D30. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD31. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:B32. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD33. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC34. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C35. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案:A36. Spark Streming中( )函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案:D37. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T38. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD39. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C40. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD41. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案:C42. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB43. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A44. 下列属于传统统计学展示方法的是( )。A.柱状图B.饼状图C.曲线图D.网络图参考答案:ABC45. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B46. 图结构中如果无重复的边或者顶点到自身的边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:D47. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:D48. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B49. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案:BC50. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D51. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B52. 默认情况下,Scala 使用的是可变集合。( )T.对F.错参考答案:F53. 下列哪一种算法不是随机化算法?( )A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案:C54. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。( )A.对B.错参考答案:A55. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A56. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A57. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C58. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A59. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A60. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案:A
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!