并行计算——结构算法编程修订版高等教育出版社课件

资源描述

1.1.陈国良等，陈国良等，并行计算机体系结构并行计算机体系结构，北京：高教出版社，北京：高教出版社，200220022.2.陈国良，陈国良，并行算法的设计与分析并行算法的设计与分析，北京：高教出版社，北京：高教出版社，2002(2002(修订版修订版)3.3.陈国良等，陈国良等，并行算法实践并行算法实践，北京：高教出版社，北京：高教出版社，200320034.Barry Wilkinson4.Barry Wilkinson等，陆鑫达等译，等，陆鑫达等译，并行程序设计并行程序设计，北京：，北京：机械工业出版社，机械工业出版社，20012001v参考教材参考教材并行计算（机）的历史和发展方向并行计算（机）的历史和发展方向并行计算机体系结构概况并行计算机体系结构概况并行计算机完成计算要考虑的一些关键问题并行计算机完成计算要考虑的一些关键问题并行算法设计的一般思路并行算法设计的一般思路一些常用的并行算法一些常用的并行算法基于多核的并行编程（入门级）基于多核的并行编程（入门级）课程简介课程简介并行计算并行计算课程要讨论的课程要讨论的内容内容了解当代并行计算机的发展现状了解当代并行计算机的发展现状了解并行计算相关的基本术语和技术了解并行计算相关的基本术语和技术了解并行计算的思维方式了解并行计算的思维方式能够理解和设计简单的并行算法能够理解和设计简单的并行算法能够设计和实现简单的并行程序（基于多核）能够设计和实现简单的并行程序（基于多核）开阔分析和处理问题的思路开阔分析和处理问题的思路课程简介课程简介并行计算并行计算课程的课程的目的目的总目录总目录v第一章第一章并行计算机系统及其结构模型并行计算机系统及其结构模型v第二章当代并行计算机系统介绍第二章当代并行计算机系统介绍v第四章并行算法的设计基础第四章并行算法的设计基础v第五章并行算法的一般设计策略第五章并行算法的一般设计策略 v第六章并行算法的基本设计技术第六章并行算法的基本设计技术v第七章并行算法的一般设计过程第七章并行算法的一般设计过程 v第八章基本通信操作第八章基本通信操作v第九章第九章多核编程技术介绍多核编程技术介绍成绩评定成绩评定出勤率出勤率作业作业讨论讨论考试考试成绩成绩“并行计算并行计算”的概念的概念串行式计算串行式计算传统上，一般的软件设计都是串行式计算：传统上，一般的软件设计都是串行式计算：软件在一台只有一个软件在一台只有一个CPU的电脑上运行；的电脑上运行；问题被分解成离散的指令序列；问题被分解成离散的指令序列；指令被一条接一条的执行；指令被一条接一条的执行；在在任任何何时时间间CPU上上最最多多只只有有一一条条指指令令在在运运行行。问题问题指令序列指令序列串行式计算串行式计算“并行计算并行计算”的概念的概念在最简单的情形下，在最简单的情形下，并行计算并行计算是使用是使用多多个计算资源个计算资源去解决去解决可计算问题可计算问题。用多用多CPUCPU来运行；来运行；问题被分解成离散的部分可以被同时解决；问题被分解成离散的部分可以被同时解决；每一部分被细分成一系列指令；每一部分被细分成一系列指令；每一部分的指令可以在不同的每一部分的指令可以在不同的CPUCPU上同时的执行；上同时的执行；“并行计算并行计算”的概念的概念“并行计算并行计算”的概念的概念问题问题指令序列指令序列计算资源计算资源可以包括：可以包括：任意数量的任意数量的CPU用网络连接起来用网络连接起来;多核多核CPU；或者以上两者结合；或者以上两者结合；可计算问题可计算问题的特性：的特性：能分解成可以同时解决的离散的工作块；能分解成可以同时解决的离散的工作块；同一时刻可以执行多条程序指令；同一时刻可以执行多条程序指令；通常用多个计算资源解决问题所花的时间要比单个计算通常用多个计算资源解决问题所花的时间要比单个计算资源要短；资源要短；并行计算并行计算是使用是使用多多个计算资源去解决个计算资源去解决可计算问题可计算问题并行计算的用途在在历史上历史上，并行计算并行计算被认为是被认为是高端计算高端计算，并用于为，并用于为复杂的复杂的科学计算科学计算和基于真实世界的和基于真实世界的工程问题建模工程问题建模。大气层、地球、环境大气层、地球、环境物理学应用、核能、原子能、凝聚态、高压、溶解、光电子；物理学应用、核能、原子能、凝聚态、高压、溶解、光电子；生物科学、生物工程、基因学生物科学、生物工程、基因学化学、分子科学化学、分子科学地理和地震学地理和地震学机械工程、从弥补术到空间飞行器机械工程、从弥补术到空间飞行器电气工程、电路设计、微电子学电气工程、电路设计、微电子学计算机科学、数学计算机科学、数学并行计算的用途计算机模拟计算机模拟并行计算的用途计算机模拟计算机模拟并行计算的用途今天今天，商务应用商务应用是推动快速计算机发展的更大的推动力。这是推动快速计算机发展的更大的推动力。这些应用需要用些应用需要用复杂的方法处理大量数据复杂的方法处理大量数据。数据库、数据挖掘数据库、数据挖掘石油勘探石油勘探网络搜索引擎、基于网络的商务服务网络搜索引擎、基于网络的商务服务医学成像和诊断，制药设计医学成像和诊断，制药设计国有企业或跨国企业的管理国有企业或跨国企业的管理金融经济建模金融经济建模高级制图和虚拟现实、特别实在娱乐事业上高级制图和虚拟现实、特别实在娱乐事业上网络视频和多媒体技术，协同工作环境网络视频和多媒体技术，协同工作环境n大气的模型：分解成多个三维的单元。大气的模型：分解成多个三维的单元。n天气变化模拟：重复计算这些三维单元的状态来模拟它们天气变化模拟：重复计算这些三维单元的状态来模拟它们随着时间推移变化的情况随着时间推移变化的情况n模拟示例模拟示例n全球大气被分解成大小是：全球大气被分解成大小是：1 1 英里英里 1 1英里英里 1 1英里的英里的单元单元，布，布满满1010英里高的高度，估计需要英里高的高度，估计需要5*105*108 8个个单元单元n假设每个假设每个单元单元每次计算需要每次计算需要200200次浮点运算，则一个时间步必须次浮点运算，则一个时间步必须完成完成10101111次浮点运算次浮点运算.n如果要预报如果要预报1010天以上的天气，使用的时间间隔为天以上的天气，使用的时间间隔为1010分钟，则需要分钟，则需要10104 4个时间步，总计需要浮点运算个时间步，总计需要浮点运算10101515次次.n如果是一个如果是一个100 Mflops100 Mflops(10(108 8浮点运算浮点运算/s)/s)的计算机，的计算机，则需则需10108 8秒超秒超过过 100 100 天天.n如果想要如果想要 10 10 分钟完成计算，则需运算速度分钟完成计算，则需运算速度1.7 Tflops1.7 Tflops(1.7 (1.7 10101212浮点运算浮点运算/s)/s)的计算机的计算机.例例1 1：数值天气预报（：数值天气预报（计算机模拟计算机模拟）为什么为什么使用并行计算使用并行计算q节省时间和成本节省时间和成本：理论上，使用更多的资源会使一个任务提：理论上，使用更多的资源会使一个任务提前完成，而且会节约潜在的成本。况且可以使用便宜的、甚至前完成，而且会节约潜在的成本。况且可以使用便宜的、甚至市面将要淘汰的市面将要淘汰的CPU来构建并行聚簇。来构建并行聚簇。q解决更大规模的问题解决更大规模的问题：很多问题是相当庞大而复杂的，尤：很多问题是相当庞大而复杂的，尤其是当计算机的内存受到限制的时候，用单个计算机来解决其是当计算机的内存受到限制的时候，用单个计算机来解决是不切实际或者根本不可能的。是不切实际或者根本不可能的。Grand Challenge(en.wikipedia.org/wiki/Grand_Challenge)问题需要Peta级浮点运算能力和存储空间的计算资源。网络搜索引擎和网络数据库每秒钟要执行上百万次的处理。为什么为什么使用并行计算使用并行计算q支持并行支持并行：单一的计算资源在同一时刻只能做一件事情。：单一的计算资源在同一时刻只能做一件事情。多个计算资源能够同时做很多事情。例如：多个计算资源能够同时做很多事情。例如：Access Grid Access Grid(http:/www.accessgrid.orghttp:/www.accessgrid.org/)提供一个全球的合作网络，提供一个全球的合作网络，在这里来自世界上不同国家的人们可以开会并在这里来自世界上不同国家的人们可以开会并“现场现场”指导指导工作。工作。为什么为什么使用并行计算使用并行计算q 使用非本地资源使用非本地资源：当缺少本地计算资源的时候可以使用当缺少本地计算资源的时候可以使用广泛的网络或广泛的网络或InternetInternet计算资源。例如：计算资源。例如：SETIhome(setiathome.berkeley.eduSETIhome(setiathome.berkeley.edu)使用超过使用超过330000330000个个计算机来执行每秒超过计算机来执行每秒超过528T528T次浮点运算；次浮点运算；(August 04,2008)(August 04,2008)Foldinghome(folding.stanford.eduFoldinghome(folding.stanford.edu)使用超过使用超过340,000 340,000 计计算机来执行每秒算机来执行每秒4.2P4.2P次浮点运算次浮点运算 (November 4,2008)(November 4,2008)为什么为什么使用并行计算使用并行计算例例2.2.并行处理技术在信息安全领域的应用并行处理技术在信息安全领域的应用一、一、并行处理技术在并行处理技术在传统密码学传统密码学中的应用中的应用 1 1、提高加解密的速度、提高加解密的速度 2 2、提高密钥生成的速度、提高密钥生成的速度 3 3、加速密码分析、加速密码分析mccmkkk密码系统机理密码系统机理例例2.2.并行处理技术在信息安全领域的应用并行处理技术在信息安全领域的应用二、二、利用量子计算机对传统密码体制进行分析利用量子计算机对传统密码体制进行分析量子计算机是一种传统意义上的极大规模并行计算系统量子计算机是一种传统意义上的极大规模并行计算系统大数的因子分解是数学中的一个传统难题，这一结果在密码学中有大数的因子分解是数学中的一个传统难题，这一结果在密码学中有重要应用，著名的重要应用，著名的RSARSA算法的安全性就基于大数因子分解。现在人们普算法的安全性就基于大数因子分解。现在人们普遍相信，对于经典计算机，大数因子分解不存在有效的多项式时间算法。遍相信，对于经典计算机，大数因子分解不存在有效的多项式时间算法。但但ShorShor却证明，利用量子计算机，可以在多项式时间内将大数分解，这却证明，利用量子计算机，可以在多项式时间内将大数分解，这一结果向一结果向RSARSA公钥系统的安全性提出了严重挑战。公钥系统的安全性提出了严重挑战。目前：量子计算机的实验方案还很初步。现在的实验只制备出单个的目前：量子计算机的实验方案还很初步。现在的实验只制备出单个的量子逻辑门，远未达到实现计算所需要的逻辑门网络。量子逻辑门，远未达到实现计算所需要的逻辑门网络。如果：在不远的将来，量子计算机成为现实，各种密码算法都能够被如果：在不远的将来，量子计算机成为现实，各种密码算法都能够被轻易的破解出来轻易的破解出来串行计算的限制理论上和实际上，想要轻易地制造更快的串行计算机存在着理论上和实际上，想要轻易地制造更快的串行计算机存在着巨大的限制。巨大的限制。传输速度传输速度线性计算机的执行速度直接取决于数据在硬线性计算机的执行速度直接取决于数据在硬件中传输的速度。光速的绝对限制是每纳秒件中传输的速度。光速的绝对限制是每纳秒30cm，铜导线，铜导线是每纳秒是每纳秒9cm。不断提升的执行速度更加靠近极限。不断提升的执行速度更加靠近极限。微型化的极限微型化的极限处理器技术使芯片集成了更多的晶体管。处理器技术使芯片集成了更多的晶体管。但是，即使使用分子或者原子级别的组件也会很快达到芯片但是，即使使用分子或者原子级别的组件也会很快达到芯片集成晶体管的极限。集成晶体管的极限。经济上的限制经济上的限制让单个芯片变得更快需要增加昂贵的投让单个芯片变得更快需要增加昂贵的投入。用多个一般的芯片来取代单个高性能的芯片或许性能会入。用多个一般的芯片来取代单个高性能的芯片或许性能会更好而且更便宜更好而且更便宜1.2.1 系统互连系统互连v不同带宽与距离的互连技术:总线、SAN、LAN、MAN、WAN局部总线、局部总线、I/O总线、总线、SAN和和LAN1.2.1 系统互连系统互连静态静态互连网络与互连网络与动态动态互连网络互连网络v静态静态互连网络：互连网络：处理单元处理单元间有着间有着固定连接固定连接的一的一类网络，在程序执行期间，这种点到点的链接类网络，在程序执行期间，这种点到点的链接保持不变；典型的静态网络有一维线性阵列、保持不变；典型的静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶形网络等牌交换网、蝶形网络等v动态动态网络：用网络：用交换开关交换开关构成的，可按应用程序构成的，可按应用程序的要求的要求动态动态地地改变连接改变连接组态；典型的动态网络组态；典型的动态网络包括总线、交叉开关和多级互连网络等。包括总线、交叉开关和多级互连网络等。定义定义1 1：网络中任意两节点间最短路径的最大值称为：网络中任意两节点间最短路径的最大值称为网络的直网络的直径径(diameter of a network)(diameter of a network)。n直径越小越好，说明网络中任意两节点间的通信时间越直径越小越好，说明网络中任意两节点间的通信时间越少。它被用来确定并行算法的通信下限。少。它被用来确定并行算法的通信下限。定义定义2 2：当网络被切为相等的两半时，切口处的最少边数称为当网络被切为相等的两半时，切口处的最少边数称为等分宽度等分宽度（bisection width bisection width 对剖宽度）。对剖宽度）。n等分宽度越大，说明网络布线密度越大，通信的复杂性等分宽度越大，说明网络布线密度越大，通信的复杂性越小。它为消息传递量提供了下限值。越小。它为消息传递量提供了下限值。平分宽度平分宽度=2=2直径直径=4=4网络性能指标网络性能指标定义定义3 3：与节点连接的边数称为与节点连接的边数称为节点度节点度(node degree)(node degree)。n网络中各节点的节点度最好为一个常量，而不依赖于网络网络中各节点的节点度最好为一个常量，而不依赖于网络的大小，这样是因为处理器组织规模更容易扩大。的大小，这样是因为处理器组织规模更容易扩大。定义定义4 4：如果从任意节点看网络都一样，则称网络为如果从任意节点看网络都一样，则称网络为对称的对称的(Symmetry)(Symmetry)。节点度节点度=2=2 该网络是对称的该网络是对称的网络性能指标网络性能指标1.2.2 静态互连网络（1）v一维线性一维线性阵列（阵列（1-D Linear Array1-D Linear Array）：）：并行机中并行机中最简单最简单、最基本的互连方式，、最基本的互连方式，每个节点只与其左、右近邻相连，也叫二近邻连接，每个节点只与其左、右近邻相连，也叫二近邻连接，N N个节点用个节点用N-1N-1条边串接之，内节点度为条边串接之，内节点度为2 2，直径为，直径为N-1N-1，对剖宽度为，对剖宽度为1 1当首、尾节点相连时可构成循环移位器，在拓扑结当首、尾节点相连时可构成循环移位器，在拓扑结构上等同于环，环可以是单向的或双向的，其节点构上等同于环，环可以是单向的或双向的，其节点度恒为度恒为2 2，直径或为，直径或为（双向环）或为（双向环）或为N-1N-1（单（单向环），对剖宽度为向环），对剖宽度为2 2 1.2.2 静态互连网络（静态互连网络（2）v 二维网孔（2-D Mesh）：每个节点只与其上、下、左、右的近邻相连（边界节点除外），节点度为4，网络直径为，对剖宽度为在垂直方向上带环绕，水平方向呈蛇状，就变成Illiac网孔了，节点度恒为4，网络直径为，而对剖宽度为垂直和水平方向均带环绕，则变成了2-D环绕（2-D Torus），节点度恒为4，网络直径为，对剖宽度为 1.2.2 1.2.2 静态互连网络（静态互连网络（3 3）v二叉树：除了根、叶节点，每个内节点只与其父节点和两个子节点相连。节点度为3，对剖宽度为1，而树的直径为如果尽量增大节点度为，则直径缩小为2，此时就变成了星形网络，其对剖宽度为传统二叉树的主要问题是根易成为通信瓶颈。胖树节点间的通路自叶向根逐渐变宽。1.2.2 静态互连网络（4）v超立方超立方：一个一个n-立方由立方由个顶点组成，个顶点组成，3-立方如图立方如图(a)所示；所示；4-立方立方如图如图(b)所示，由两个所示，由两个3-立方的对应顶点连接而成。立方的对应顶点连接而成。n-立方的节点度为立方的节点度为n，网络直径也是，网络直径也是n，而对剖宽度为，而对剖宽度为。如果将如果将3-立方的每个顶点代之以一个环就构成了如图立方的每个顶点代之以一个环就构成了如图(d)所示的所示的3-立方环，此时每个顶点的度为立方环，此时每个顶点的度为3，而不像超立方那样节点度，而不像超立方那样节点度为为n。网络名称网络名称网络规模网络规模节点度节点度网络直径网络直径对剖宽度对剖宽度对称对称链路数链路数线性阵列线性阵列21非非环形环形2 （双（双向）向）2是是2-D网孔网孔 4非非Illiac网孔网孔 4非非2-D环绕环绕4是是二叉树二叉树31非非星形星形2非非超立方超立方 n n是是立方环立方环3是是静态互连网络特性比较1.2.3动态互连网络(1)v总线总线：PCIPCI、VMEVME、MulticsMultics、SbusSbus、MicroChannelMicroChannel 多处理机总线系统的主要问题包括总线仲裁、中断处理、多处理机总线系统的主要问题包括总线仲裁、中断处理、协议转换、快速同步、高速缓存一致性协议、分事务、协议转换、快速同步、高速缓存一致性协议、分事务、总线桥和层次总线扩展等总线桥和层次总线扩展等n交叉开关（交叉开关（CrossbarCrossbar）：）：n单级交换网络，可为每个端口提供更高的带宽。象电话交换机一单级交换网络，可为每个端口提供更高的带宽。象电话交换机一样，交叉点开关可由程序控制动态设置其处于样，交叉点开关可由程序控制动态设置其处于“开开”或或“关关”状状态，而能提供所有（源、目的）对之间的动态连接。态，而能提供所有（源、目的）对之间的动态连接。n交叉开关一般有两种使用方式：一种是用于对称的多处理机或多交叉开关一般有两种使用方式：一种是用于对称的多处理机或多计算机机群中的计算机机群中的处理器间处理器间的通信；另一种是用于的通信；另一种是用于SMPSMP服务器或向服务器或向量超级计算机量超级计算机中处理器和存储中处理器和存储器器之间的存取。之间的存取。1.2.3动态互连网络(2)v单级交叉开关级联起来形成多级互连网络单级交叉开关级联起来形成多级互连网络MINMIN（Multistage Interconnection Multistage Interconnection NetworkNetwork）1.2.3动态互连网络(3)v交换开关模块：交换开关模块：一个交换开关模块有一个交换开关模块有n n个输入和个输入和n n个输出，每个输入可个输出，每个输入可连接到任意输出端口，但只允许一对一或一对多的映连接到任意输出端口，但只允许一对一或一对多的映射，不允许多对一的映射，因为这将发生输出冲突射，不允许多对一的映射，因为这将发生输出冲突 v级间互连（级间互连（InterstageInterstage Connection Connection）：）：均匀洗牌、蝶网、多路均匀洗牌、交叉开关、立方连均匀洗牌、蝶网、多路均匀洗牌、交叉开关、立方连接接n n输入的输入的网络需要网络需要级级开关，在开关，在IlinoisIlinois大学的大学的Cedar2Cedar2多处理机系统中采用了多处理机系统中采用了网络网络 Cray Y/MPCray Y/MP多级网络，该网络用来支持多级网络，该网络用来支持8 8个向量处理器个向量处理器和和256256个存储器模块之间的数据传输。网络能够避免个存储器模块之间的数据传输。网络能够避免8 8个处理器同时进行存储器存取时的冲突。个处理器同时进行存储器存取时的冲突。1.2.3动态互连网络(4)动态互连网络比较 n,节点规模 w，数据宽度动态互连网络的复杂度和带宽性能一览表动态互连网络的复杂度和带宽性能一览表网络特性网络特性总线系统总线系统多级互连网络多级互连网络交叉开关交叉开关硬件复杂度硬件复杂度每个处理器带宽每个处理器带宽报道的聚集带宽报道的聚集带宽SunFire服务服务器中的器中的Gigaplane总总线：线：2.67GB/sIBM SP2中的中的512节点的节点的HPS：10.24GB/sDigital的千兆的千兆开关：开关：3.4GB/s1.2.4标准互联网络（1）vMyrinet:Myrinet是由Myricom公司设计的千兆位包交换网络，其目的是为了构筑计算机机群，使系统互连成为一种商业产品。Myrinet是基于加州理工学院开发的多计算机和VLSI技术以及在南加州大学开发的ATOMIC/LAN技术。Myrinet能假设任意拓扑结构，不必限定为开关网孔或任何规则的结构。Myrinet在数据链路层具有可变长的包格式，对每条链路施行流控制和错误控制，并使用切通选路法以及定制的可编程的主机接口。在物理层上，Myrinet网使用全双工SAN链路，最长可达3米，峰值速率为（1.281.28）Gbps（目前有2.56+2.56)Myrinet交换开关:8,12,16端口Myrinet主机接口:32位的称作LANai芯片的用户定制的VLSI处理器，它带有Myrinet接口、包接口、DMA引擎和快速静态随机存取存储器SRAM。140 of the November 2002 TOP500 use Myrinet,including 15 of the top 100 Myrinet连接的连接的LAN/Cluster(机群机群)v高性能并行接口（高性能并行接口（HiPPIHiPPI）Los AlamosLos Alamos国家实验室于国家实验室于19871987年提出的一个标准，其目的是试年提出的一个标准，其目的是试图统一来自不同产商生产的所有大型机和超级计算机的接口。图统一来自不同产商生产的所有大型机和超级计算机的接口。在大型机和超级计算机工业界，在大型机和超级计算机工业界，HiPPIHiPPI作为短距离的系统到系作为短距离的系统到系统以及系统到外设连接的高速统以及系统到外设连接的高速I/OI/O通道。通道。19931993年，年，ANSI X3T9.3ANSI X3T9.3委员会认可了委员会认可了HiPPIHiPPI标准，它覆盖了物理标准，它覆盖了物理和数据链路层，但在这两层之上的任何规定却取决于用户。和数据链路层，但在这两层之上的任何规定却取决于用户。HiPPIHiPPI是个单工的点到点的数据传输接口，其速率可达是个单工的点到点的数据传输接口，其速率可达800Mbps800Mbps到到1.6Gbps1.6Gbps。开发成功了一种能提供潜在的开发成功了一种能提供潜在的6.4Gbps6.4Gbps速率，比速率，比HiPPIHiPPI快快8 8倍且倍且有很低时延的超级有很低时延的超级HiPPIHiPPI技术，技术，SGISGI公司和公司和Los AlamosLos Alamos国家实验室都开发了用来构筑速率高达国家实验室都开发了用来构筑速率高达25.6Gbps25.6Gbps的的HiPPIHiPPI交换开关的交换开关的HiPPIHiPPI技术。技术。HiPPIHiPPI通道和通道和HiPPIHiPPI交换开关被用在交换开关被用在SGI Power ChallengeSGI Power Challenge服务服务器、器、IBM 390IBM 390主机、主机、Cray Y/MPCray Y/MP、C90C90和和T3D/T3ET3D/T3E等系统等系统 1.2.4标准互联网络（2）使用HiPPI通道和开关构筑的LAN主干网 v光纤通道FC（Fiber Channel）:通道和网络标准的集成光纤通道既可以是共享介质，也可以是一种交换技术光纤通道操作速度范围可从100到133、200、400和800Mbps。FCSI厂商也正在推出未来具有更高速度（1、2或4Gbps）的光纤通道光纤通道的价值已被现在的某些千兆位局域网所证实，这些局域网就是基于光纤通道技术的连网拓扑结构的灵活性是光纤通道的主要财富，它支持点到点、仲裁环及交换光纤连接 vFDDI:光纤分布式数据接口FDDI（Fiber Distributed Data Interface）FDDI采用双向光纤令牌环可提供100-200Mbps数据传输速率 FDDI具有互连大量设备的能力传统的FDDI仅以异步方式操作 1.2.4标准互联网络（3）双向FDDI环作为主干网 vATM（Asynchronous Transfer Mode）:由成立于1991年的ATM论坛和ITU标准定义。ATM是一种独立于介质的消息传输协议，它将消息段变成更短的固定长度为53字节的报元进行传输。这种技术是基于报元交换机制。ATM的目的是将实时和突发数据的传输合并成单一的网络技术。ATM网络支持从25到51、155和622Mbps不同的速率，其速率越低ATM交换器和使用的链路价格越低。1.2.4标准互联网络（4）香港大学开发的Pearl机群代别代别类型类型以太网以太网10BaseT10BaseT快速以太网快速以太网100BaseT100BaseT千兆位以太网千兆位以太网1GB1GB引入年代引入年代198219821994199419971997速度（带宽）速度（带宽）10Mb/s10Mb/s100Mb/s100Mb/s1Gb/s1Gb/s最最大大距距离离UTRUTR（非屏蔽双扭对）（非屏蔽双扭对）100m100m100m100m2525100m100mSTPSTP（屏蔽双扭对）（屏蔽双扭对）同轴电缆同轴电缆500m500m100m100m2525100m100m多模光纤多模光纤2Km2Km412m412m（半双工）（半双工）2Km2Km（全双工）（全双工）500m500m单模光纤单模光纤25Km25Km20Km20Km3Km3Km主要应用领域主要应用领域文件共享，文件共享，打印机共享打印机共享COWCOW计算，计算，C/SC/S结构，结构，大型数据库存取等大型数据库存取等大型图像文件，大型图像文件，多媒体，多媒体，因特网，因特网，内部网，内部网，数据仓库等数据仓库等1.2.4标准互联网络（5）1.3.1 并行计算机结构模型多核处理器多核处理器（MulticoreMulticore Processor Processor）n两个或多个独立运行的内核集成于同一个处理器上面两个或多个独立运行的内核集成于同一个处理器上面n同一处理器内部所封装的核心如果体系结构相同，且同一处理器内部所封装的核心如果体系结构相同，且对存储、对存储、I/OI/O等资源的访问具有同等的地位，则为等资源的访问具有同等的地位，则为对称对称多核处理器多核处理器。nIBMIBM、SUNSUN、IntelIntel、AMDAMD均有对称多核处理器产品均有对称多核处理器产品n同一处理器内部所封装的核心如果体系结构不同，或同一处理器内部所封装的核心如果体系结构不同，或者角色不同，则为者角色不同，则为非对称多核处理器非对称多核处理器。nIBMIBM、东芝、索尼、索尼娱乐共同推出的、东芝、索尼、索尼娱乐共同推出的Cell BECell BECore0Core0Core1Core1Front Side BusFront Side Bus并行计算机体系合一结构 vSMP、MPP、DSM和和COW并行结构渐趋一致。并行结构渐趋一致。大量的节点通过高速网络互连起来大量的节点通过高速网络互连起来节点遵循节点遵循Shell结构结构：用专门定制的：用专门定制的Shell电路将商用微处理器和电路将商用微处理器和节点的其它部分（包括板级节点的其它部分（包括板级Cache、局存、局存、NIC和和DISK）连接起）连接起来。优点是来。优点是CPU升级只需要更换升级只需要更换Shell。1.3.1 并行计算机结构模型五种结构特性一览表属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商用商用互连网络定制交叉开关总线、交叉开关定制网络定制网络商用网络（以太ATM）通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储器集中共享集中共享分布非共享分布共享分布非共享访存模型UMAUMANORMANUMANORMA代表机器Cray C-90，Cray T-90，银河1号IBM R50，SGI Power Challenge，曙光1号Intel Paragon，IBMSP2，曙光1000/2000Stanford DASH，Cray T 3DBerkeley NOW，Alpha Farm1.3.2并行计算机访存模型（1)vUMA（Uniform Memory Access）模型是均匀）模型是均匀存储访问模型的简称。其特点是：存储访问模型的简称。其特点是：物理存储器被所有处理器均匀共享；物理存储器被所有处理器均匀共享；所有处理器访问任何存储字取相同的时间；所有处理器访问任何存储字取相同的时间；每台处理器可带私有高速缓存；每台处理器可带私有高速缓存；外围设备也可以一定形式共享。外围设备也可以一定形式共享。vNUMA(Nonuniform Memory Access)模模型型是是非非均均匀匀存存储储访访问问模模型型的的简简称称。特点是：特点是：被被共共享享的的存存储储器器在在物物理理上上是是分分布布在在所所有有的的处处理理器器中中的的，其其所所有有本本地地存存储器的集合就组成了全局地址空间；储器的集合就组成了全局地址空间；处处理理器器访访问问存存储储器器的的时时间间是是不不一一样样的的；访访问问本本地地存存储储器器LM或或群群内内共共享享存存储储器器CSM较较快快，而而访访问问外外地地的的存存储储器器或或全全局局共共享享存存储储器器GSM较较慢慢(此即非均匀存储访问名称的由来此即非均匀存储访问名称的由来)；每台处理器照例可带私有高速缓存，外设也可以某种形式共享。每台处理器照例可带私有高速缓存，外设也可以某种形式共享。LM1P1LM2P2LMnPn互连网络(a)共享本地存储模型全局互连网络(b)层次式机群模型GSMGSMGSMPCINCSMPPCSMCSM群1PCINCSM群NPPCSMCSM1.3.2并行计算机访存模型（2)vCOMA(Cache-Only Memory Access)模模型型是是全全高高速速缓缓存存存存储储访访问问的的简简称称。其特点是：其特点是：各各处处理理器器节节点点中中没没有有存存储储层层次次结结构构，全全部部高高速速缓缓存存组组成成了了全全局局地地址址空间；空间；利用分布的高速缓存目录利用分布的高速缓存目录D进行远程高速缓存的访问进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于中的高速缓存容量一般都大于2 级高速缓存容量；级高速缓存容量；使使用用COMA时时，数数据据开开始始时时可可任任意意分分配配，因因为为在在运运行行时时它它最最终终会会被被迁移到要用到它们的地方。迁移到要用到它们的地方。1.3.2并行计算机访存模型（3)vCC-NUMA（Coherent-Cache Nonuniform Memory Access）模型是高）模型是高速缓存一致性非均匀存储访问模型的简称。其特点是：速缓存一致性非均匀存储访问模型的简称。其特点是：大多数使用基于目录的高速缓存一致性协议；大多数使用基于目录的高速缓存一致性协议；保留保留SMP结构易于编程的优点，也改善常规结构易于编程的优点，也改善常规SMP的可扩放性；的可扩放性；CC-NUMA实际上是一个分布共享存储的实际上是一个分布共享存储的DSM多处理机系统；多处理机系统；它最显著的优点是程序员无需明确地在节点上分配数据，系统的硬它最显著的优点是程序员无需明确地在节点上分配数据，系统的硬件和软件开始时自动在各节点分配数据，在运行期间，高速缓存一件和软件开始时自动在各节点分配数据，在运行期间，高速缓存一致性硬件会自动地将数据迁移至要用到它的地方。致性硬件会自动地将数据迁移至要用到它的地方。1.3.2并行计算机访存模型（并行计算机访存模型（4)NORMANORMA（No-Remote No-Remote Memory Memory AccessAccess）模模型型是是非非非非远远远远程程程程存储访问存储访问存储访问存储访问模型的简称。模型的简称。NORMANORMA的特点是：的特点是：所有存储器是私有的；所有存储器是私有的；绝大数绝大数NUMANUMA都不支持远程存储器的访问；都不支持远程存储器的访问；在在DSMDSM中，中，NORMANORMA就消失了。就消失了。1.3.2并行计算机访存模型（5)构筑并行机系统的不同存储结构

展开阅读全文

并行计算——结构算法编程修订版高等教育出版社课件

最新文档