南开大学21秋《并行程序设计》平时作业二参考答案84

资源描述

南开大学21秋并行程序设计平时作业二参考答案1. n个元素排序问题，如果只能通过元素比较交换构造算法，则n个处理器的并行排序算法达到( )的运行时间才是代价最优的。A.O(logn)B.O(n)C.O(nlogn)D.O(n2)参考答案：A2. 在共享内存架构编程中，线程间不能通过_进行通信A.全局变量B.局部变量C.静态变量D.全局堆中变量参考答案：B3. 超立方中相邻节点二进制编号_。A.至少差1位B.至多差1位C.恰好差1位D.差异不固定参考答案：C4. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C5. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考答案：B6. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案：B7. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C8. 在MPI中从/向虚拟进程收/发消息的实际效果是_。在MPI中从/向虚拟进程收/发消息的实际效果是_。A.与通信域根进程通信B.与0号进程通信C.像什么都没发生一样D.以上皆错参考答案：C9. 一个AVX寄存器最多存放_个单精度浮点数。一个AVX寄存器最多存放_个单精度浮点数。A.2B.4C.8D.16参考答案：C10. OpenMP归约指令采用的是一种_算法。A.分治B.贪心C.动态规划D.排序参考答案：A11. 对一个串行程序进行SIMD并行化，应重点考虑的程序部分是( )。A.声明语句B.条件分支语句C.循环语句D.输入输出语句参考答案：C12. CPU时钟频率1GHz，每个时钟周期两个计算单元可执行4条指令，内存延迟125ns，进行向量点积运算，无cache情况下，计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案：A13. OpenMP编译指示中说明私有变量是用_子句。OpenMP编译指示中说明私有变量是用_子句。A.privateB.sharedC.scheduleD.nowait参考答案：A14. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C15. 忙等待方法解决竞争条件的思路是( )。A.令CPU一直处于忙碌状态无法产生竞争条件B.令存在数据依赖的内存操作充分并行C.强制多线程进入临界区的顺序来将存在数据依赖内存操作串行化D.以上皆错参考答案：C16. 下列指令集中( )不是SIMD指令集。A.SSEB.NeonC.AVXD.EMT64参考答案：D17. 每个MMX寄存器宽度为_位。每个MMX寄存器宽度为_位。A.32B.64C.128D.256参考答案：B18. 在矩阵乘法之前将第二个矩阵转置，其作用不包括_。A.增大访存空间局部性B.减少运算次数C.优化SIMD访存D.以上皆错参考答案：B19. 两个矩阵相乘，当矩阵规模大于cache大小时，平凡算法的问题是_。A.第一个矩阵访存时间局部性差B.第一个矩阵访存空间局部性差C.第二个矩阵访存时间局部性差D.第二个矩阵访存空间局部性差参考答案：D20. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的( )操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D21. 为利用cache空间局部性，需满足_。为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D22. 下面哪种架构最适合数据并行?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：B23. 关于并行代价，下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案：D24. 编写矩阵乘法的SSE程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的SSE程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：B25. 采用MPI主从模型解决矩阵每行排序问题，主进程不断向每个从进程发送任务、接收结果，则它从从进程接收结果时，以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案：D26. 造成超线性加速比的你原因包括_。造成超线性加速比的你原因包括_。A.进程间大量通信B.并行算法导致额外计算C.并行计算工作量显著小于串行计算D.问题求解包含不可并行化部分参考答案：C27. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D28. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C29. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C30. SSE intrinsics _mm_hadd_ps命令的功能是_。SSE intrinsics _mm_hadd_ps命令的功能是_。A.寄存器间单精度浮点数向量加法B.寄存器间双精度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案：C31. GPU相对于其他众核产品的优势不包括( )。A.平台普及B.有CUDA这样易学的开发工具C.性价比高D.由英伟达公司一家把控参考答案：D32. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：B33. SSE intrinsics_mm_store_sd命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C34. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的缺点是_。A.更不利于负载均衡B.增大了通信开销C.提高了计算次数D.增加了从进程空闲参考答案：A35. 以下超级计算机中，_是SIMD架构。以下超级计算机中，_是SIMD架构。A.CRAY-1B.天河1AC.天河2号D.神威太湖之光参考答案：A36. 对矩阵乘法进行多线程并行化，对矩阵采用_。对矩阵乘法进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：A37. SSE运算指令中未提供_指令。A.算术运算B.矩阵运算C.逻辑运算D.比较运算参考答案：B38. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案：D39. 下面矩阵运算中，哪个进行简单的数据并行效果不佳_。A.矩阵求和B.矩阵相乘C.矩阵向量相乘D.高斯消去参考答案：D40. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案：C41. 在128位的SIMD寄存器中，我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案：D42. 对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案：C43. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案：A44. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.#include B.#pragma omp parallelC.#ifdef _OPENMPD.#define _OPENMP参考答案：C45. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法_。n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法_。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案：A46. 对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。A.竞争条件B.数据依赖C.资源泄漏D.死锁参考答案：D47. 用pthread_barrier_init初始化障碍，应提供的参数不包括_。A.障碍对象B.障碍初值C.障碍属性D.参与的线程数参考答案：B48. 大型医院每天的X光片、CT等医学图像的分析需要_。大型医院每天的X光片、CT等医学图像的分析需要_。A.串行计算即可B.高吞吐率计算C.高性能计算D.以上皆错参考答案：B49. 关于并行代价，下面描述正确的是_。关于并行代价，下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案：D50. OpenMP循环并行指令是_。OpenMP循环并行指令是_。A.omp parallelB.omp singleC.omp parallel forD.omp master参考答案：C51. 在使用互斥量之后必须对其进行_。在使用互斥量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D52. SSE intrinsics_mm_load_ss命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐标量读取单精度浮点数D.未对齐标量读取单精度浮点数参考答案：C53. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案：C54. 我国最近一次夺得全球超级计算机计算能力冠军的是_。我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1号B.天河1AC.天河2号D.神威太湖之光参考答案：D55. 对于并行程序设计，下面说法错误的是_。对于并行程序设计，下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案：D56. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案：B57. 对单精度浮点计算，AVX最高实现( )路并行。A.2B.4C.8D.16参考答案：C58. SSE有_个专用寄存器。A.4B.8C.16D.33参考答案：B59. OpenMP不能实现的是( )。A.负责创建和管理线程B.隐藏栈管理C.提供同步机制D.自动并行化参考答案：D60. CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通过矩阵分片优化性能D.访存方面无优化可能参考答案：B

展开阅读全文

南开大学21秋《并行程序设计》平时作业二参考答案84

最新文档