南开大学21春《并行程序设计》在线作业二满分答案36

资源描述

南开大学21春并行程序设计在线作业二满分答案1. 对于向线程函数传递参数，下列说法错误的是_。A.线程函数并非用户程序调用，因此无法直接传递B.线程函数必须接受void *参数，因此只能传递大小不超过指针的数据对象C.线程通常通过此途径获取线程号D.不同线程间的参数传递相互无关，即使它们具有相同的线程函数参考答案：B2. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案：A3. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D4. 利用cache line一次读取多个数据字的机制优化程序访存性能，其机理是( )。A.降低了访存延迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案：C5. 记并行时间为T，串行时间为T&39;，处理器数量为p，效率为E，则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案：B6. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案：A7. 记并行时间为T，串行时间为T&39;，处理器数量为p，则额外开销应如何计算?( )A.T-TB.T-TC.pTD.pT-T参考答案：D8. 采用多核、众核技术提升CPU性能，相对于单核的优势不包括_。A.架构设计更容易B.更易突破物理极限C.能更充分利用现有资源D.功耗优势明显参考答案：B9. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C10. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A11. MMX有( )个专用寄存器。A.4B.8C.16D.32参考答案：B12. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案：A13. 为缓解存储和CPU之间的性能差距，常见的技术手段不包括_。A.利用cache降低访存延迟B.利用多线程隐藏访存延迟C.利用预取隐藏访存延迟D.采用大容量内存提高访问速度参考答案：D14. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B15. 在SSE intrinsics程序中双精度浮点数数据类型是( )。A._m128B._m128fC._m128dD._m128i参考答案：C16. 采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案：C17. 在条件成立时使用pthread_cond_signal( )。A.唤醒等待线程B.解锁互斥量C.加锁互斥量D.唤醒等待线程，该线程重新加锁互斥量参考答案：D18. 在使用信号量之前必须对其进行_。在使用信号量之前必须对其进行_。A.初始化B.加锁C.加1D.销毁参考答案：A19. 为了充分利用CPU内的多条流水线，程序应满足_。为了充分利用CPU内的多条流水线，程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案：A20. 和一对多广播对应的组通信操作是( )。A.多对一收集B.多对多收集C.多对一归约D.多对多归约参考答案：C21. 每个SSE寄存器宽度为_位。每个SSE寄存器宽度为_位。A.32B.64C.128D.256参考答案：C22. 在下面问题中，SIMD并行更适合( )。A.搜索B.排序C.矩阵乘法D.构建二叉排序树参考答案：C23. 执行pthread_rwlock_rdlock时，( )的情况下加锁成功。A.已有一个线程上了写锁B.已有多个线程上了写锁C.已有多个线程上了读锁D.已有多个线程上了读锁和写锁参考答案：C24. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案：B25. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：D26. 为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D27. 编写矩阵乘法的AVX程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的AVX程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：C28. SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm803，若imm81=j则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置1B.将第二个源寄存器的第j个元素放在目标寄存器位置1C.将第一个源寄存器的第1个元素放在目标寄存器位置1D.将第二个源寄存器的第1个元素放在目标寄存器位置1参考答案：A29. 我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1号B.天河1AC.天河2号D.神威太湖之光参考答案：D30. 每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D31. 伸缩性的含义不包括( )。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案：A32. 对矩阵每行排序的程序进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：C33. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：A34. 关于并行代价，下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案：D35. 伸缩性的含义不包括_。伸缩性的含义不包括_。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案：A36. pthread_create函数中线程函数指针的正确类型是( )。A.void(void*)B.void*(void*)C.int(void)D.void*(*)(void*)参考答案：D37. 如果运算对象是独立无关的变量，则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案：A38. 四位助教帮助教授批改300份试卷，试卷共16道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。四位助教帮助教授批改300份试卷，试卷共16道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。A.数据并行B.任务并行C.搜索并行D.预测并行参考答案：B39. 对这样的循环for(i=0;iA.循环划分B.循环消除C.循环展开D.以上皆错参考答案：C40. float a64; for(i=0; iA.8B.16C.32D.64参考答案：B41. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )。A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D42. 对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案：C43. 主线程创建了4个从线程然后打印一条信息，从线程打印各自的线程号，未使用任何同步，则主线程打印的消息和从线程打印的线程号的相对顺序_。A.必然主线程前、从线程后B.必然从线程前、主线程后C.必然相互交织D.各种顺序皆有可能参考答案：D44. 下面哪种架构最适合数据并行?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：B45. OpenMP并行模型是一种_模式。OpenMP并行模型是一种_模式。A.SISDB.SIMDC.MISDD.SPMD参考答案：D46. OpenMP不能实现的是( )。A.负责创建和管理线程B.隐藏栈管理C.提供同步机制D.自动并行化参考答案：D47. SIMD并行化时遇到对齐问题，高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界，然后进行SIMD对齐访存参考答案：D48. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案：C49. 对于多线程各自进行本地运算，然后由主线程汇总结果的模式，下面说法正确的是( )。A.在同构核心上，线程运行速度一样，主线程无需等待，直接汇总结果即可B.线程运行速度可能不一致，必须采用同步保证主线程汇总正确结果C.太多本地运算，不能体现并行效果，不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案：B50. 对于并行程序设计，下面说法错误的是_。对于并行程序设计，下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案：D51. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B52. 在下列应用中，SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案：D53. 新一代GPU重点提供的新特性不包括( )。A.新型高速显存B.GPU间直接高速互联C.自动并行化D.人工智能计算专门优化参考答案：C54. n个节点的超立方构造成本为( )。A.OlognB.OsqrtnC.OnD.Onlogn参考答案：D55. OpenMP中多线程间是一种( )关系。A.主从B.分组C.对等D.竞争参考答案：A56. 我国最近一次夺得全球超级计算机计算能力冠军的是_。我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1号B.天河1AC.天河2号D.神威太湖之光参考答案：D57. CUDA的优点不包括_。A.可移植性B.入门简单C.标准的SPMD模式D.不再需要图形API参考答案：A58. 对一个串行程序进行SIMD并行化，应重点考虑的程序部分是( )。A.声明语句B.条件分支语句C.循环语句D.输入输出语句参考答案：C59. 从线程检查主线程是否要求它退出应采用_。从线程检查主线程是否要求它退出应采用_。A.pthread_joinB.pthread_cancelC.pthread_testcancelD.pthread_exit参考答案：C60. 为利用cache空间局部性，需满足_。为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D

展开阅读全文

南开大学21春《并行程序设计》在线作业二满分答案36

最新文档