南开大学21秋《并行程序设计》平时作业一参考答案64

上传人:住在****她 文档编号:91397469 上传时间:2022-05-17 格式:DOCX 页数:14 大小:14.56KB
返回 下载 相关 举报
南开大学21秋《并行程序设计》平时作业一参考答案64_第1页
第1页 / 共14页
南开大学21秋《并行程序设计》平时作业一参考答案64_第2页
第2页 / 共14页
南开大学21秋《并行程序设计》平时作业一参考答案64_第3页
第3页 / 共14页
点击查看更多>>
资源描述
南开大学21秋并行程序设计平时作业一参考答案1. for (i=0;iA.可完全向量化B.不可向量化C.不确定D.可部分向量化参考答案:D2. float a64; for(i=0; iA.1B.2C.3D.4参考答案:B3. 利用cache line一次读取多个数据字的机制优化程序访存性能,其机理是( )。A.降低了访存延迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案:C4. 每个MMX寄存器宽度为_位。每个MMX寄存器宽度为_位。A.32B.64C.128D.256参考答案:B5. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案:D6. 在128位的SIMD寄存器中,我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案:D7. SSE intrinsics _mm_store_ss命令的功能是_。A.对齐向量存单精度浮点数B.未对齐向量存双精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存双精度浮点数参考答案:C8. 多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )A.读取x存在数据依赖,不能并发进行B.累加顺序被改变,结果是错误的C.加法操作是简单运算,无需同步D.加法操作不是原子操作,需要同步保证数据依赖参考答案:D9. OpenMP循环并行指令是( )。A.omp parallelB.omp singleC.omp parallel forD.omp master参考答案:C10. SSE intrinsics_mm_loadu_ps命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案:B11. CUDA的优点不包括_。A.可移植性B.入门简单C.标准的SPMD模式D.不再需要图形API参考答案:A12. 四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种_任务划分方法。四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种_任务划分方法。A.数据并行B.任务并行C.搜索并行D.预测并行参考答案:B13. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A14. 在使用信号量之前必须对其进行_。在使用信号量之前必须对其进行_。A.初始化B.加锁C.加1D.销毁参考答案:A15. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。A.正确的B.错误的参考答案:B16. 任务依赖图中权重之和最长的路径称为( )。A.最大任务B.关键路径C.平均并发度D.最短路径参考答案:B17. 在使用互斥量之后必须对其进行_。在使用互斥量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D18. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A19. pthread_join的第二个参数的作用是_。A.设置指定线程属性B.获取指定线程属性C.向指定线程传递参数D.获取指定线程函数返回结果参考答案:D20. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案:C21. 伸缩性的含义不包括( )。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案:A22. _执行pthread_sem_post操作,当前线程会唤醒阻塞线程。_执行pthread_sem_post操作,当前线程会唤醒阻塞线程。A.当信号量已加锁时B.当信号量为0时C.当信号量已超过阈值时D.当信号量已销毁时参考答案:B23. 下面哪个问题相对而言更不适合进行数据并行_。下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案:B24. SSE intrinsics_mm_store_sd命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案:C25. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?A.1)B.2)C.不确定D.以上皆错参考答案:B26. 以下( )是MPI基本原语。A.MPI_barrierB.MPI_Comm_numprocsC.MPI_Comm_rankD.MPI_Comm_Send参考答案:C27. 如果运算对象是独立无关的变量,则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案:A28. 两个矩阵相乘,将矩阵划分为固定大小的子矩阵,变元素运算为子矩阵运算,是使用利用数据访问的_达到更高的cache命中率。A.时间局部性B.空间局部性C.计算局部性D.混合局部性参考答案:A29. 为缓解存储和CPU之间的性能差距,常见的技术手段不包括_。A.利用cache降低访存延迟B.利用多线程隐藏访存延迟C.利用预取隐藏访存延迟D.采用大容量内存提高访问速度参考答案:D30. 当问题规模不变时,随着处理器数量增大,加速比_。A.必然增大B.必然减小C.必然不变D.以上皆错参考答案:D31. 对于并行程序设计,下面说法错误的是_。对于并行程序设计,下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案:D32. 为了充分利用CPU内的多条流水线,程序应满足_。为了充分利用CPU内的多条流水线,程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案:A33. 一个AVX寄存器最多存放_个单精度浮点数。一个AVX寄存器最多存放_个单精度浮点数。A.2B.4C.8D.16参考答案:C34. 当处理器数量不变时,随着问题规模增大,加速比_。当处理器数量不变时,随着问题规模增大,加速比_。A.所有算法都增大B.所有算法都减小C.代价最优算法都增大D.代价最优算法都减小参考答案:C35. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案:B36. 两个n*n的矩阵相乘,将所有n2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分的数据并行。A.输入数据B.中间结果C.输出数据D.临时数据参考答案:B37. 超级计算机制造越来越关注的一个新的指标是_。超级计算机制造越来越关注的一个新的指标是_。A.计算能力B.存储能力C.占地面积D.功耗参考答案:D38. 用pthread_barrier_init初始化障碍,应提供的参数不包括_。A.障碍对象B.障碍初值C.障碍属性D.参与的线程数参考答案:B39. 为利用cache空间局部性,需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案:D40. SSE是_平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案:A41. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案:B42. pthread_rwlock_rdlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:C43. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:D44. pthread_rwlock_wrlock是对读写锁进行_操作。pthread_rwlock_wrlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:D45. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案:A46. 我国首次获得戈登贝尔奖是在_年。我国首次获得戈登贝尔奖是在_年。A.2015B.2016C.2017D.2018参考答案:B47. SSE指令移动单精度浮点数,不能实现_。SSE指令移动单精度浮点数,不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案:C48. 两个矩阵相乘,当矩阵规模大于cache大小时,平凡算法的问题是_。A.第一个矩阵访存时间局部性差B.第一个矩阵访存空间局部性差C.第二个矩阵访存时间局部性差D.第二个矩阵访存空间局部性差参考答案:D49. 对于向线程函数传递参数,下列说法错误的是_。A.线程函数并非用户程序调用,因此无法直接传递B.线程函数必须接受void *参数,因此只能传递大小不超过指针的数据对象C.线程通常通过此途径获取线程号D.不同线程间的参数传递相互无关,即使它们具有相同的线程函数参考答案:B50. 矩阵每行排序的问题更适合使用MPI的_编程模型。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案:D51. 记并行时间为T,串行时间为T&39;,处理器数量为p,并行效率E的定义是_。记并行时间为T,串行时间为T,处理器数量为p,并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案:C52. MPI_Send和MPI_recv是通过( )区分消息。A.端口号B.消息名C.消息标签D.消息哈希参考答案:C53. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案:D54. 关于并行代价,下面描述正确的是_。关于并行代价,下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案:D55. 对于加速比S和处理器数量p,下列说法正确的是_。A.有可能SpB.必然SpC.不可能S=pD.两者无关联参考答案:A56. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案:A57. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案:B58. 主线程要求从线程退出应采用_。主线程要求从线程退出应采用_。A.pthread_createB.pthread_exitC.pthread_quitD.pthread_cancel参考答案:D59. OpenMP编译指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案:A60. 主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案:B
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!