南开大学21秋《并行程序设计》在线作业三满分答案55

资源描述

南开大学21秋并行程序设计在线作业三满分答案1. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案：A2. MPI组通信操作不包括哪类_。MPI组通信操作不包括哪类_。A.通信B.同步C.点对点D.计算参考答案：C3. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参考答案：C4. 大型医院每天的X光片、CT等医学图像的分析需要_。大型医院每天的X光片、CT等医学图像的分析需要_。A.串行计算即可B.高吞吐率计算C.高性能计算D.以上皆错参考答案：B5. 编写n个数求和的OpenMP程序，最高效的方法是( )。A.多线程直接并发累加到共享变量B.将累加操作设置为临界区C.在累加操作前设置障碍D.采用归约指令参考答案：D6. 以下( )是MPI基本原语。A.MPI_barrierB.MPI_Comm_numprocsC.MPI_Comm_rankD.MPI_Comm_Send参考答案：C7. 对天气预报问题，将大气层划分为5*108个网格单元，每个时间步每个网格需200个浮点运算，时间间隔设置为10分钟，计算10天内大气运动，100MFlops计算能力的计算机需要多少天?( )对天气预报问题，将大气层划分为5*108个网格单元，每个时间步每个网格需200个浮点运算，时间间隔设置为10分钟，计算10天内大气运动，100MFlops计算能力的计算机需要多少天?( )A.1B.10C.100D.300参考答案：C8. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案：D9. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案：D10. 在条件成立时使用pthread_cond_signal( )。A.唤醒等待线程B.解锁互斥量C.加锁互斥量D.唤醒等待线程，该线程重新加锁互斥量参考答案：D11. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案：B12. 控制流语句进行SIMD并行化很困难的原因是控制流语句导致( )。A.连续数据执行不同指令B.连续数据执行相同指令C.同一数据执行不同指令D.同一数据执行相同指令参考答案：A13. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案：C14. 华尔街是世界上超级计算机最密集的区域之一，原因是( )。A.金融巨头支付得起B.与超算制造商有良好合作C.海量交易需要很高安全性D.海量交易处理需要并行计算参考答案：D15. pthread_rwlock_wrlock是对读写锁进行_操作。pthread_rwlock_wrlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案：D16. 对于加速比S和处理器数量p，下列说法正确的是_。A.有可能SpB.必然SpC.不可能S=pD.两者无关联参考答案：A17. 单程序多数据流模式是针对_架构的。A.SISDB.SIMDC.MISDD.MIMD参考答案：D18. 编写矩阵乘法的AVX程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的AVX程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：C19. 为了充分利用CPU内的多条流水线，程序应满足_。为了充分利用CPU内的多条流水线，程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案：A20. 动态任务划分相对于静态任务划分的缺点是_。动态任务划分相对于静态任务划分的缺点是_。A.可能导致负载不均B.通信开销高C.任务粒度粗D.计算复杂度高参考答案：B21. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D22. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案：B23. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C24. 在下列应用中，SIMD最不适合_。在下列应用中，SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案：D25. 全球500强超算在操作系统上越来越体现出_一家独大的趋势。A.UnixB.WindowsC.LinuxD.ios参考答案：C26. 对于并行程序设计，下面说法错误的是_。对于并行程序设计，下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案：D27. 以下超级计算机中，_是SIMD架构。以下超级计算机中，_是SIMD架构。A.CRAY-1B.天河1AC.天河2号D.神威太湖之光参考答案：A28. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A29. 关于障碍机制，下面说法错误的是_。关于障碍机制，下面说法错误的是_。A.会导致快速线程阻塞，不应使用B.在需要强制线程步调一致时，应使用C.可用互斥量机制实现D.属于一种组通信参考答案：A30. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：A31. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C32. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B33. SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm803，若imm81=j则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置1B.将第二个源寄存器的第j个元素放在目标寄存器位置1C.将第一个源寄存器的第1个元素放在目标寄存器位置1D.将第二个源寄存器的第1个元素放在目标寄存器位置1参考答案：A34. 以下哪条不是推动并行计算发展的因素?( )以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案：B35. OpenMP默认采用_循环划分策略。A.静态B.固定C.动态D.自适应参考答案：A36. SSE的blend指令的8位二进制整数参数被用做8个掩码imm807，若imm8j=0则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置0B.将第二个源寄存器的第j个元素放在目标寄存器位置0C.将第一个源寄存器的第j个元素放在目标寄存器位置jD.将第二个源寄存器的第j个元素放在目标寄存器位置j参考答案：C37. 在下列应用中，SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案：D38. OpenMP并行模型是一种_模式。OpenMP并行模型是一种_模式。A.SISDB.SIMDC.MISDD.SPMD参考答案：D39. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案：C40. 每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D41. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案：C42. 对双精度浮点计算，AVX最高实现( )路并行。A.2B.4C.8D.16参考答案：B43. 记并行时间为T，串行时间为T&39;，处理器数量为p，并行代价的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行代价的定义是_。A.pTB.T+TC.p(T-T)D.pT-T参考答案：A44. 对一个串行程序进行SIMD并行化，应重点考虑的程序部分是_。对一个串行程序进行SIMD并行化，应重点考虑的程序部分是_。A.声明语句B.条件分支语句C.循环语句D.输入输出语句参考答案：C45. OpenMP能实现的是( )。A.避免数据竞争B.提供任务划分策略C.确保加速D.确保降低通信开销参考答案：B46. 若SIMD并行化时遇到对齐问题，下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案：C47. MPI不包括的通信类别是_。MPI不包括的通信类别是_。A.点对点通信B.数据传输组通信C.计算和数据传输组通信D.加锁解锁通信参考答案：D48. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C49. CPU时钟频率1GHz，每个时钟周期两个计算单元可执行4条指令，内存延迟125ns，进行向量点积运算，无cache情况下，计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案：A50. 任务依赖图中权重之和最长的路径称为( )。A.最大任务B.关键路径C.平均并发度D.最短路径参考答案：B51. CUDA的优点不包括_。CUDA的优点不包括_。A.可移植性B.入门简单C.标准的SPMD模式D.不再需要图形API参考答案：A52. 一个Neon寄存器最多存放_个双精度浮点数。一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：A53. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D54. 对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案：C55. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )A.1B.2C.不确定D.以上皆错参考答案：B56. 当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。A.多核和众核技术B.突破物理局限C.改善散热D.采用新材料参考答案：A57. float a64; for(i=0; iA.8B.16C.32D.64参考答案：B58. n个元素排序问题，如果只能通过元素比较交换构造算法，则n个处理器的并行排序算法达到( )的运行时间才是代价最优的。A.O(logn)B.O(n)C.O(nlogn)D.O(n2)参考答案：A59. 采用MPI主从模型解决矩阵每行排序问题，主进程不断向每个从进程发送任务、接收结果，则它从从进程接收结果时，以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案：D60. 对矩阵乘法进行多线程并行化，对矩阵采用_。对矩阵乘法进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：A

展开阅读全文

南开大学21秋《并行程序设计》在线作业三满分答案55

最新文档