南开大学21春《大数据开发技术》在线作业三满分答案77

资源描述

南开大学21春大数据开发技术在线作业三满分答案1. 下列Scala代码应输出( )：var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) sum+=a+b;println(sum);A.36B.35C.11D.12参考答案：D2. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC3. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A4. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A5. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A6. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T7. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：C8. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案：ABC9. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A10. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F11. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD12. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A13. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B14. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A15. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案：A16. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B17. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C18. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案：A19. HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。( )A.正确B.错误参考答案：B20. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A21. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A22. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD23. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F24. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC25. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C26. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B27. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B28. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A29. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A30. Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。( )T.对F.错参考答案：F31. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C32. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D33. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B34. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案：C35. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD36. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A37. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D38. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F39. Strassen矩阵乘法是利用什么实现的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A40. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B41. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案：B42. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B43. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D44. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C45. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A46. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D47. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD48. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A49. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T50. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T51. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案：B52. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案：T53. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A54. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C55. Scala是一种纯面向对象的语言，每个值都是对象。( )T.对F.错参考答案：T56. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A57. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案：A58. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C59. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B60. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案：T

展开阅读全文

南开大学21春《大数据开发技术》在线作业三满分答案77

最新文档