南开大学21春《并行程序设计》离线作业2参考答案98

上传人:住在****她 文档编号:97828401 上传时间:2022-05-28 格式:DOCX 页数:12 大小:13.36KB
返回 下载 相关 举报
南开大学21春《并行程序设计》离线作业2参考答案98_第1页
第1页 / 共12页
南开大学21春《并行程序设计》离线作业2参考答案98_第2页
第2页 / 共12页
南开大学21春《并行程序设计》离线作业2参考答案98_第3页
第3页 / 共12页
点击查看更多>>
资源描述
南开大学21春并行程序设计离线作业2参考答案1. n个节点的超立方构造成本为( )。A.OlognB.OsqrtnC.OnD.Onlogn参考答案:D2. CPU时钟频率1GHz,每个时钟周期两个计算单元可执行4条指令,内存延迟125ns,进行向量点积运算,无cache情况下,计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案:A3. SIMD架构未见于_中。SIMD架构未见于_中。A.多媒体扩展B.图形和游戏处理器C.计算机集群D.协处理器参考答案:C4. 在条件成立时使用pthread_cond_signal( )。A.唤醒等待线程B.解锁互斥量C.加锁互斥量D.唤醒等待线程,该线程重新加锁互斥量参考答案:D5. 一个AVX寄存器最多存放_个双精度浮点数。一个AVX寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:B6. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )A.1B.2C.不确定D.以上皆错参考答案:B7. SSE是_平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案:A8. OpenMP是_的一个常见替代。OpenMP是_的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答案:C9. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D10. 静态线程编程模式的缺点是_。静态线程编程模式的缺点是_。A.线程管理开销高B.系统资源利用率低C.线程负载不均D.线程通信开销高参考答案:B11. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案:D12. float a64; for(i=0; iA.1B.2C.3D.4参考答案:B13. 关于OpenMP循环并行程序的编写,下列说法中正确的是_。A.程序员需要编写线程创建和管理代码B.程序员需要编写循环划分代码C.程序员需要编写调度策略代码D.程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么参考答案:D14. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:D15. 在编写使用n个线程进行n个数求和的OpenMP的程序时采用临界区技术,则多线程版本_串行版本。A.肯定快于B.肯定慢于C.可能快于D.以上皆错参考答案:B16. 现代CPU中都具有指令乱序执行功能,其目的不包括_。现代CPU中都具有指令乱序执行功能,其目的不包括_。A.消除指令依赖,更充分利用多流水线B.提高cache效率C.改变计算结果D.消除资源冲突参考答案:C17. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案:B18. SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高),则执行C=shuffle(A, A, 0x1B)后,C中元素为( )SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高),则执行C=shuffle(A, A, 0x1B)后,C中元素为( )A.A1 A2 A3 A4B.A2 A1 A4 A3C.A3 A4 A1 A2D.A4 A3 A2 A1参考答案:D19. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案:D20. 对双精度浮点计算,AVX最高实现( )路并行。A.2B.4C.8D.16参考答案:B21. 记并行时间为T,串行时间为T&39;,处理器数量为p,效率为E,则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案:B22. SSE intrinsics_mm_store_sd命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案:C23. FORTRAN语言存储二维数组采取_。FORTRAN语言存储二维数组采取_。A.行主次序存储B.列主次序存储C.交错式存储D.对角线存储参考答案:B24. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点数D.未对齐标量存双精度浮点数参考答案:C25. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案:C26. 下列哪门课程不是并行程序设计的先导课?下列哪门课程不是并行程序设计的先导课?A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案:D27. 采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案:C28. 关于MPI是什么,以下说法错误的是_。关于MPI是什么,以下说法错误的是_。A.一种消息传递编程模型标准B.一种共享内存编程模型标准C.编程角度看是C+/Fortran等的库D.基于SPMD模型参考答案:B29. 一个AVX寄存器最多存放( )个整型数。A.2B.4C.8D.16参考答案:C30. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案:B31. SSE寄存器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高),则执行C=blend(A,B,0x05)后,C中元素为( )。A.A1 A2 B3 B4B.B1 B2 A3 A4C.A1 B2 A3 B4D.B1 A2 B3 A4参考答案:D32. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。A.正确的B.错误的参考答案:B33. 对于并行程序设计,下面说法错误的是_。对于并行程序设计,下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案:D34. 在下面问题中,SIMD并行最不适合( )。A.向量加法B.向量中元素排序C.矩阵向量乘法D.矩阵加法参考答案:B35. 以下( )是MPI基本原语。A.MPI_barrierB.MPI_Comm_numprocsC.MPI_Comm_rankD.MPI_Comm_Send参考答案:C36. 为了充分利用CPU内的多条流水线,程序应满足_。为了充分利用CPU内的多条流水线,程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案:A37. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案:B38. 下列指令集中( )不是SIMD指令集。A.SSEB.NeonC.AVXD.EMT64参考答案:D39. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案:C40. 多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )A.读取x存在数据依赖,不能并发进行B.累加顺序被改变,结果是错误的C.加法操作是简单运算,无需同步D.加法操作不是原子操作,需要同步保证数据依赖参考答案:D41. 在下面问题中,SIMD并行更适合( )。A.搜索B.排序C.矩阵乘法D.构建二叉排序树参考答案:C42. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A43. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:A44. 动态线程编程模式的缺点是_。动态线程编程模式的缺点是_。A.线程管理开销高B.系统资源利用率低C.线程任务分配困难D.线程通信效率低参考答案:A45. 对单精度浮点计算,SSE最高实现_路并行。对单精度浮点计算,SSE最高实现_路并行。A.2B.4C.8D.16参考答案:B46. 若SIMD并行化时遇到对齐问题,下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案:C47. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案:A48. 对单精度浮点计算,AVX最高实现( )路并行。A.2B.4C.8D.16参考答案:C49. 为利用cache空间局部性,需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案:D50. pthread_join的作用是( )。A.强制终止指定线程B.检测指定线程是否结束C.等待指定线程结束才返回D.向指定线程发送数据参考答案:C
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!