南开大学21春《并行程序设计》在线作业二满分答案27

资源描述

南开大学21春并行程序设计在线作业二满分答案1. OpenMP循环并行指令是_。OpenMP循环并行指令是_。A.omp parallelB.omp singleC.omp parallel forD.omp master参考答案：C2. 关于障碍机制，下面说法错误的是_。关于障碍机制，下面说法错误的是_。A.会导致快速线程阻塞，不应使用B.在需要强制线程步调一致时，应使用C.可用互斥量机制实现D.属于一种组通信参考答案：A3. 对于并行程序设计，下面说法错误的是_。对于并行程序设计，下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案：D4. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B5. 将起泡排序程序改写为奇偶转置排序，关于其两层循环是否存在数据依赖，下面说法正确的是( )。A.外层存在，内层不存在B.外层不存在，内层存在C.两层都不存在D.两层都存在参考答案：A6. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C7. OpenMP编译指示中说明私有变量是用_子句。OpenMP编译指示中说明私有变量是用_子句。A.privateB.sharedC.scheduleD.nowait参考答案：A8. 在下面问题中，SIMD并行更适合( )。A.搜索B.排序C.矩阵乘法D.构建二叉排序树参考答案：C9. 对矩阵乘法进行多线程并行化，对矩阵采用_。对矩阵乘法进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：A10. 以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案：B11. 以下超级计算机中，( )不是SIMD架构。A.CDCSTAR-100B.757C.银河D.天河1号参考答案：D12. OpenMP是_的一个常见替代。OpenMP是_的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答案：C13. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B14. 每个SSE寄存器宽度为_位。每个SSE寄存器宽度为_位。A.32B.64C.128D.256参考答案：C15. SSE intrinsics_mm_load_ss命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐标量读取单精度浮点数D.未对齐标量读取单精度浮点数参考答案：C16. 两个矩阵相乘，将矩阵划分为固定大小的子矩阵，变元素运算为子矩阵运算，是使用利用数据访问的_达到更高的cache命中率。A.时间局部性B.空间局部性C.计算局部性D.混合局部性参考答案：A17. 两个矩阵相乘，若矩阵规模大于cache大小，则优化访存的可行方法是( )。A.先将两个矩阵读入cache再进行乘法B.先转置第一个矩阵再进行乘法C.先转置第二个矩阵再进行乘法D.以上皆错参考答案：C18. FORTRAN语言存储二维数组采取_。FORTRAN语言存储二维数组采取_。A.行主次序存储B.列主次序存储C.交错式存储D.对角线存储参考答案：B19. 下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案：B20. 并行计算还主要用于国防、工程研究等领域，这种说法是_。A.正确的B.错误的参考答案：B21. 对奇偶转置排序进行OpenMP并行化，第一种策略是直接对内层循环使用omp parallel for指令，第二种策略是对外层循环使用omp parallel指令，对内层循环使用omp for指令，后者相对于前者的优点是_。A.保持了数据依赖B.消除了大量线程创建、销毁开销C.有利于负载均衡D.减少了线程间交互参考答案：B22. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：A23. 动态任务划分相对于静态任务划分的缺点是_。动态任务划分相对于静态任务划分的缺点是_。A.可能导致负载不均B.通信开销高C.任务粒度粗D.计算复杂度高参考答案：B24. 造成超线性加速比的你原因包括_。造成超线性加速比的你原因包括_。A.进程间大量通信B.并行算法导致额外计算C.并行计算工作量显著小于串行计算D.问题求解包含不可并行化部分参考答案：C25. 为利用cache空间局部性，需满足_。为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D26. 一个Neon寄存器最多存放_个双精度浮点数。一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：A27. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案：A28. OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。A.两者均为创建线程时传递参数B.两者均通过特定APIC.前者创建线程时传递参数，后者通过特定APID.前者通过特定API，后者创建线程时传递参数参考答案：D29. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案：D30. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案：A31. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B32. 下列哪门课程不是并行程序设计的先导课?下列哪门课程不是并行程序设计的先导课?A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案：D33. 对划分输入数据的策略，下面说法错误的是_。对划分输入数据的策略，下面说法错误的是_。A.当输出数据很少时，需划分输入数据B.当输出数据存在依赖时，需划分输入数据C.通常最后需要汇总结果D.由于不是直接划分输出数据，性能会很差参考答案：D34. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C35. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C36. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案：D37. 当问题规模不变时，随着处理器数量增大，效率降低的性质对_成立。A.部分并行算法B.代价最优并行算法C.所有并行算法D.以上皆错参考答案：C38. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法，一次乘加运算涉及的子矩阵可全部放入cache，则整个计算过程中，两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案：D39. 关于MPI是什么，以下说法错误的是_。关于MPI是什么，以下说法错误的是_。A.一种消息传递编程模型标准B.一种共享内存编程模型标准C.编程角度看是C+/Fortran等的库D.基于SPMD模型参考答案：B40. 下列哪门课程不是并行程序设计的先导课?( )A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案：D41. float a64; for(i=0; iA.8B.16C.32D.64参考答案：B42. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C43. 下列指令集中( )不是SIMD指令集。A.SSEB.NeonC.AVXD.EMT64参考答案：D44. MMX有( )个专用寄存器。A.4B.8C.16D.32参考答案：B45. 编写矩阵乘法的Neon程序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：A46. SSE intrinsics_mm_loadu_ps命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案：B47. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A48. pthread_join的第二个参数的作用是_。A.设置指定线程属性B.获取指定线程属性C.向指定线程传递参数D.获取指定线程函数返回结果参考答案：D49. 主线程要求从线程退出应采用_。主线程要求从线程退出应采用_。A.pthread_createB.pthread_exitC.pthread_quitD.pthread_cancel参考答案：D50. 控制流语句进行SIMD并行化很困难的原因是控制流语句导致( )。A.连续数据执行不同指令B.连续数据执行相同指令C.同一数据执行不同指令D.同一数据执行相同指令参考答案：A51. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案：C52. 任务依赖图中顶点权重之和表示( )。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C53. 将寄存器设置为4个给定单精度浮点数的SSE intrinsics指令是_。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案：A54. pthread_create函数中设置一个参数为“线程函数参数”的原因是_。A.它调用线程函数时可直接传递，性能更优B.它需要预处理之后传递给线程函数C.线程函数不是用户程序调用，只能采用这种方式由系统代为传递参数D.没有特别用意参考答案：C55. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案：C56. MPI原址收发各一条消息的API是_。A.MPI_SendrecvB.MPI_SendC.MPI_RecvD.MPI_Sendrecv_Replace参考答案：D57. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案：B58. 新一代GPU重点提供的新特性不包括( )。A.新型高速显存B.GPU间直接高速互联C.自动并行化D.人工智能计算专门优化参考答案：C59. pthread_join的作用是( )。A.强制终止指定线程B.检测指定线程是否结束C.等待指定线程结束才返回D.向指定线程发送数据参考答案：C60. 记并行时间为T，串行时间为T&39;，处理器数量为p，并行效率E的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案：C

展开阅读全文

南开大学21春《并行程序设计》在线作业二满分答案27

最新文档