南开大学22春《并行程序设计》离线作业二及答案参考12

上传人:住在山****ck 文档编号:88527855 上传时间:2022-05-11 格式:DOCX 页数:14 大小:14.81KB
返回 下载 相关 举报
南开大学22春《并行程序设计》离线作业二及答案参考12_第1页
第1页 / 共14页
南开大学22春《并行程序设计》离线作业二及答案参考12_第2页
第2页 / 共14页
南开大学22春《并行程序设计》离线作业二及答案参考12_第3页
第3页 / 共14页
点击查看更多>>
资源描述
南开大学22春并行程序设计离线作业二及答案参考1. 对于多线程各自进行本地运算,然后由主线程汇总结果的模式,下面说法正确的是( )。A.在同构核心上,线程运行速度一样,主线程无需等待,直接汇总结果即可B.线程运行速度可能不一致,必须采用同步保证主线程汇总正确结果C.太多本地运算,不能体现并行效果,不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案:B2. 控制流语句进行SIMD并行化很困难的原因是控制流语句导致( )。A.连续数据执行不同指令B.连续数据执行相同指令C.同一数据执行不同指令D.同一数据执行相同指令参考答案:A3. 矩阵每行排序的问题更适合使用MPI的_编程模型。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案:D4. 对于加速比S和处理器数量p,下列说法正确的是_。A.有可能SpB.必然SpC.不可能S=pD.两者无关联参考答案:A5. OpenMP编译指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案:A6. SSE intrinsics_mm_loadu_ps命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案:B7. 一个AVX寄存器最多存放_个双精度浮点数。一个AVX寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:B8. pthread_create函数中线程函数指针的正确类型是( )。A.void(void*)B.void*(void*)C.int(void)D.void*(*)(void*)参考答案:D9. 对一个串行程序进行SIMD并行化,应重点考虑的程序部分是( )。A.声明语句B.条件分支语句C.循环语句D.输入输出语句参考答案:C10. 当问题规模不变时,随着处理器数量增大,加速比_。A.必然增大B.必然减小C.必然不变D.以上皆错参考答案:D11. SSE指令移动单精度浮点数,不能实现_。SSE指令移动单精度浮点数,不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案:C12. n个节点的超立方构造成本为( )。A.OlognB.OsqrtnC.OnD.Onlogn参考答案:D13. 和一对多广播对应的组通信操作是( )。A.多对一收集B.多对多收集C.多对一归约D.多对多归约参考答案:C14. CPU时钟频率1GHz,每个时钟周期两个计算单元可执行4条指令,内存延迟125ns,进行向量点积运算,无cache情况下,计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案:A15. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案:D16. 为了充分利用CPU内的多条流水线,程序应满足_。为了充分利用CPU内的多条流水线,程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案:A17. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案:C18. 互斥量mutex机制,在任何时刻_进入它保护的区域。A.允许任意数量任意类型的线程B.允许一个读线程任意个写线程C.允许一个写线程任意个读线程D.只允许一个线程参考答案:D19. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D20. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案:B21. 在分布式内存架构编程中,进程间不能( )。A.进行通信B.进行同步C.发送和接收消息D.通过读写变量交换数据参考答案:D22. OpenMP默认采用_循环划分策略。A.静态B.固定C.动态D.自适应参考答案:A23. 在128位的SIMD寄存器中,我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案:D24. OpenMP是( )的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答案:C25. OpenMP中多线程间是一种( )关系。A.主从B.分组C.对等D.竞争参考答案:A26. SSE有_个专用寄存器。A.4B.8C.16D.33参考答案:B27. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案:D28. SSE运算指令中未提供_指令。A.算术运算B.矩阵运算C.逻辑运算D.比较运算参考答案:B29. 采用多核、众核技术提升CPU性能,相对于单核的优势不包括_。A.架构设计更容易B.更易突破物理极限C.能更充分利用现有资源D.功耗优势明显参考答案:B30. pthread_rwlock_wrlock是对读写锁进行_操作。pthread_rwlock_wrlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:D31. 编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案:C32. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。A.正确的B.错误的参考答案:B33. 并行计算还主要用于国防、工程研究等领域,这种说法是_。A.正确的B.错误的参考答案:B34. 采用MPI主从模型解决矩阵每行排序问题,主进程不断向每个从进程发送任务、接收结果,则它从从进程接收结果时,以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案:D35. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案:A36. 关于并行代价,下面描述正确的是_。关于并行代价,下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案:D37. 对划分输入数据的策略,下面说法错误的是_。对划分输入数据的策略,下面说法错误的是_。A.当输出数据很少时,需划分输入数据B.当输出数据存在依赖时,需划分输入数据C.通常最后需要汇总结果D.由于不是直接划分输出数据,性能会很差参考答案:D38. 两个矩阵相乘,当矩阵规模大于cache大小时,平凡算法的问题是_。A.第一个矩阵访存时间局部性差B.第一个矩阵访存空间局部性差C.第二个矩阵访存时间局部性差D.第二个矩阵访存空间局部性差参考答案:D39. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案:C40. 除了用于解决竞争条件外,互斥量还可用于( )。A.解决共享资源竞争的问题B.解决并发度低的问题C.解决通信开销大的问题D.解决负载不均的问题参考答案:A41. 下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案:B42. 对矩阵乘法进行多线程并行化,对矩阵采用_。对矩阵乘法进行多线程并行化,对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案:A43. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案:A44. 对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案:C45. 采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第_层循环进行循环展开然后向量化。采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第_层循环进行循环展开然后向量化。A.3B.4C.5D.6参考答案:D46. R*=1.3; G+=1.8; B+=1.2; X*=1.1,此程序片段可进行SIMD并行化吗?( )A.不可以B.可以C.不确定D.以上皆错参考答案:A47. 关于OpenMP循环并行程序的编写,下列说法中正确的是_。A.程序员需要编写线程创建和管理代码B.程序员需要编写循环划分代码C.程序员需要编写调度策略代码D.程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么参考答案:D48. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法,一次乘加运算涉及的子矩阵可全部放入cache,则整个计算过程中,两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案:D49. 在使用信号量之前必须对其进行_。在使用信号量之前必须对其进行_。A.初始化B.加锁C.加1D.销毁参考答案:A50. 采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案:C51. 以下超级计算机中,_是SIMD架构。以下超级计算机中,_是SIMD架构。A.CRAY-1B.天河1AC.天河2号D.神威太湖之光参考答案:A52. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案:C53. 在MPI中从/向虚拟进程收/发消息的实际效果是_。在MPI中从/向虚拟进程收/发消息的实际效果是_。A.与通信域根进程通信B.与0号进程通信C.像什么都没发生一样D.以上皆错参考答案:C54. 两个矩阵相乘,若矩阵规模大于cache大小,则优化访存的可行方法是( )。A.先将两个矩阵读入cache再进行乘法B.先转置第一个矩阵再进行乘法C.先转置第二个矩阵再进行乘法D.以上皆错参考答案:C55. OpenMP不会自动地在_位置设置barrier。OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案:C56. 对双精度浮点计算,AVX最高实现( )路并行。A.2B.4C.8D.16参考答案:B57. OpenMP编译指示是以( )开头的。A.“#include”B.“#ifdef”C.“#pragam”D.“#else”参考答案:C58. OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。A.两者均为创建线程时传递参数B.两者均通过特定APIC.前者创建线程时传递参数,后者通过特定APID.前者通过特定API,后者创建线程时传递参数参考答案:D59. 用pthread_barrier_init初始化障碍,应提供的参数不包括_。A.障碍对象B.障碍初值C.障碍属性D.参与的线程数参考答案:B60. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案:D
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!