计算机组成原理第三章多层次的存储器

资源描述

1第三章第三章多层次的存储器多层次的存储器3.1存储器概述3.2SRAM存储器3.3DRAM存储器3.4只读存储器和闪速存储器3.5并行存储器3.6Cache存储器3.7虚拟存储器3.8奔腾系列机的虚存组织返回23.1 存储器概述存储器概述3.1.1存储器的分类3.1.2存储器的分级3.1.3主存储器的技术指标返回3.1.1 存储器的分类存储器的分类一个双稳态半导体电路或一个晶体管或一个磁性材料的存储元可以存储一位二进制代码。这个二进制代码位是存储器中的最小存储单元，称作存储位元。一个存储单元由多个存储位元组成存储器由多个存储单元组成43.1.1 存储器的分类存储器的分类l按存储介质分类：磁表面/半导体存储器l按存取方式分类：随机/顺序存取随机存取:存储内容能被随机读取，存取时间与物理位置无关（半导体）顺序存取：存储内容只能按顺序访问(磁带)磁盘结构：（柱面磁道扇区）半顺序存储器l按读写功能分类：ROM，RAMlRAM：双极型/MOSlROM：MROM/PROM/EPROM/EEPROMl按信息的可保存性分类：永久性和非永久性的l按存储器系统中的作用分类：主/辅/缓5磁表面存储器的读写原理磁表面存储器的读写原理写操作：当写线圈中通过一定方向的脉冲电流时，铁芯内就产生一定方向的磁通。读操作：当磁头经过载磁体的磁化元时，由于磁头铁芯是良好的导磁材料，磁化元的磁力线很容易通过磁头而形成闭合磁通回路。不同极性的磁化元在铁芯里的方向是不同的。磁盘结构磁盘结构盘片的上下两面都能记录信息，通常把磁盘片表面称为记录面。记录面上一系列同心圆称为磁道。每个盘片表面通常有几百到几千个磁道，每个磁道又分为若干个扇区，从图中看出，外面扇区比里面扇区面积要大。磁盘上的这种磁道和扇区的排列称为格式。磁盘地址由记录面号、磁道号、扇区号三部分组成。为进行读写操作，要求定出磁道的起始位置，称为“索引”，索引标志在传感器检索下可产生脉冲信号，再通过磁盘控制器处理，便可定出磁道起始位置。磁盘读写操作以扇区为单位一位一位串行进行，每个扇区记录一个数据块。磁盘上信息的分布磁盘上信息的分布8磁盘磁盘上信息的分布上信息的分布空白段：留出时间作为磁盘控制器的读写时间序标：磁盘控制器的同步定时信号校验字：用来校验磁盘读出的数据是否正确93.1.2 存储器的分级存储器的分级目前存储器的特点是：速度快的存储器价格贵，容量小；价格低的存储器速度慢，容量大。在计算机存储器体系结构设计时，我们希望存储器系统的性能高、价格低，那么在存储器系统设计时，应当在存储器容量，速度和价格方面的因素作折中考虑，建立了分层次的存储器体系结构如下图所示。103.1.2 存储器的分级存储器的分级l高速缓冲存储器简称cache，它是计算机系统中的一个高速小容量半导体存储器。l主存储器简称主存，是计算机系统的主要存储器，用来存放计算机运行期间的大量程序和数据。l外存储器简称外存，它是大容量辅助存储器。CAI外存外存-主存主存-Cache-CPUl读取时间依次为：ms200ns20ns10nslCPU能直接访问内存，不能直接访问外存l主存-Cache:主存与CPU速度匹配问题l外存-主存：容量123.1.3主存储器的技术指标主存储器的技术指标l字存储单元：存放一个机器字的存储单元，相应的单元地址叫字地址。l字节存储单元：存放一个字节的单元，相应的地址称为字节地址。l一个机器字可以包含多个字节，例如一个16位的二进制存储单元可以存放两个字节，可以按字编址，也可以按字节编址。l存储容量：指一个存储器中可以容纳的存储单元总数。存储容量越大，能存储的信息就越多。l存取时间又称存储器访问时间：指一次读操作命令发出到该操作完成，将数据读出到数据总线上所经历的时间。通常取写操作时间等于读操作时间，故称为存储器存取时间。l存储周期：指连续启动两次读操作所需间隔的最小时间。通常，存储周期略大于存取时间，其时间单位为ns。l存取周期=存取时间+恢复时间l存储器带宽：单位时间里存储器所存取的信息量，通常以位/秒或字节/秒做度量单位。存取周期500ns,每个存取周期可访问16位，带宽是16/(500*10-9)=32*106位/秒133.2 SRAM存储器存储器3.2.1基本的静态存储元阵列3.2.2基本的SRAM逻辑结构3.2.3读/写周期波形图143.2 SRAM存储器存储器l主存（内部存储器）是半导体存储器。根据信息存储的机理不同可以分为两类：l静态读写存储器(SRAM)：触发器，存取速度快,存储容量不如DRAM大。l动态读写存储器(DRAM)：电容153.2.1 基本的静态存储元阵列基本的静态存储元阵列1、存储位元2、三组信号线l地址线l数据线l行线l列线l控制线lR/W高电平读l低电平写CAI163.2.2 基本的基本的SRAM逻辑结构逻辑结构lSRAM芯大多采用双译码方式，以便组织更大的存储容量。采用了二级译码：将地址分成x向、y向两部分如图所示。读入时,G1关闭，G2打开,8输入缓冲器关闭，8输出缓冲器打开。写入时，G1打开，G2关闭，8输入打开，8输出关闭。CAI173.2.2 基本的基本的SRAM逻辑结构逻辑结构l存储体（2561288）l通常把各个字的同一个字的同一位集成在一个芯片（32K1）中，32K位排成256128的矩阵。8个片子就可以构成32KB。l地址译码器l采用双译码的方式（减少选择线的数目）。lA0A7为行地址译码线lA8A14为列地址译码线183.2.2 基本的基本的SRAM逻辑结构逻辑结构l读与写的互锁逻辑控制信号中CS是片选信号，CS有效时（低电平），门G1、G2均被打开。OE为读出使能信号，OE有效时（低电平），门G2开启，当写命令WE=1时（高电平），门G1关闭，存储器进行读操作。写操作时，WE=0，门G1开启，门G2关闭。注意，门G1和G2是互锁的，一个开启时另一个必定关闭，这样保证了读时不写，写时不读。193.2.3 读读/写周期波形图写周期波形图l读周期l读出时间Taql读周期时间TrclTeq:片选有效lTgq:读出使能有效l写周期l写周期时间Twcl写时间twdlThd维持时间l存取周期l读周期时间Trcl=写时间twcCAI20例例1：图：图3.5(a)是是SRAM的写入时序图。其中的写入时序图。其中R/W是读是读/写命令控制线，当写命令控制线，当R/W线为低电平时，存储器按给线为低电平时，存储器按给定地址把数据线上的数据写入存储器。请指出图定地址把数据线上的数据写入存储器。请指出图3.5(a)写入时序中的错误，并画出正确的写入时序图。写入时序中的错误，并画出正确的写入时序图。CAI213.3 DRAM存储器存储器3.3.1DRAM存储位元的记忆原理3.3.2DRAM芯片的逻辑结构3.3.3读/写周期、刷新周期3.3.4存储器容量的扩充3.3.5高级的DRAM结构3.3.6DRAM主存读/写的正确性校验223.3.1 DRAM存储位元的记忆原理存储位元的记忆原理SRAM存储器的存储位元是一个触发器，它具有两个稳定的状态。而DRAM存储器的存储位元是由一个MOS晶体管和电容器组成的记忆电路，如图3.6所示。233.3.1 DRAM存储位元的记忆原理存储位元的记忆原理CAI243.3.2 DRAM芯片的逻辑结构芯片的逻辑结构下面我们通过一个例子来看一下动态存储器的逻辑结构如图。l图3.7(a)示出1M4位DRAM芯片的管脚图，其中有两个电源脚、两个地线脚，为了对称，还有一个空脚（NC）。l图3.7(b)是该芯片的逻辑结构图。与SRAM不同的是：（1）增加了行地址锁存器和列地址锁存器。由于DRAM存储器容量很大，地址线宽度相应要增加，因此增加了芯片地址线的管脚数目。为避免这种情况，采取的办法是分时传送地址码。若地址总线宽度为10位，先传送地址码A0A9，由行选通信号RAS打入到行地址锁存器；然后传送地址码A10A19，由列选通信号CRS打入到列地址锁存器。芯片内部两部分合起来，地址线宽度达20位，存储容量为1M4位。（2）增加了刷新计数器和相应的控制电路。DRAM读出后必须刷新，而未读写的存储元也要定期刷新，而且要按行刷新，所以刷新计数器的长度等于行地址锁存器。刷新操作与读/写操作是交替进行的，所以通过2选1多路开关来提供刷新行地址或正常读/写的行地址。253.3.2 DRAM芯片的逻辑结构芯片的逻辑结构CAI263.3.3 读读/写周期、刷新周期写周期、刷新周期1、读/写周期l读周期、写周期的定义是从行选通信号RAS下降沿开始，到下一个RAS信号的下降沿为止的时间，也就是连续两个读周期的时间间隔。通常为控制方便，读周期和写周期时间相等。CAI273.3.3 读读/写周期、刷新周期写周期、刷新周期2、刷新周期l刷新周期：DRAM存储位元是基于电容器上的电荷量存储，这个电荷量随着时间和温度而减少，因此必须定期地刷新，以保持它们原来记忆的正确信息。l刷新操作有两种刷新方式：l集中式刷新:DRAM的所有行在每一个刷新周期中都被刷新。l例如刷新周期为8ms的内存来说，所有行的集中式刷新必须每隔8ms进行一次。为此将8ms时间分为两部分：前一段时间进行正常的读/写操作，后一段时间（8ms至正常读/写周期时间）做为集中刷新操作时间。3.3.3 读读/写周期、刷新周期写周期、刷新周期l分散式刷新:每一行的刷新插入到正常的读/写周期之中。l例如p70图3.7所示的DRAM有1024行，如果刷新周期为8ms，则每一行必须每隔8ms1024=7.8us进行一次。动态动态 RAM 和静态和静态 RAM 的比较的比较DRAM(主存)SRAM(Cache)l存储原理电容触发器l存储容量大小l功耗低高l价格低高l速度慢快l刷新有无303.3.4 存储器容量的扩充存储器容量的扩充1、字长位数扩展给定的芯片字长位数较短，不满足设计要求的存储器字长，此时需要用多片给定芯片扩展字长位数。三组信号线中，地址线和控制线公用而数据线单独分开连接。d=设计要求的存储器容量/选择芯片存储器容量例例2 2 利用利用1K1K4 4位的位的SRAMSRAM芯片，设计一个存储容量芯片，设计一个存储容量为为1K1K8 8位的位的SRAMSRAM存储器。存储器。解：所需芯片数量=(1K8)/(1K4)=2片设计的存储器字长为8位，存储器字数不变。连接三组信号线，即地址线、控制线公用，数据线分高4位、低4位，但数据线是双向的，与SRAM芯片的I/O端相连接。见书上图3.9所示。DDD0479AA0SRAM SRAMCSWE4.2323.3.4 存储器容量的扩充存储器容量的扩充2、字存储容量扩展l给定的芯片存储容量较小（字数少），不满足设计要求的总存储容量，此时需要用多片给定芯片来扩展字数。三组信号组中给定芯片的地址总线和数据总线公用，控制总线中R/W公用，使能端EN不能公用，它由地址总线的高位段译码来决定片选信号。所需芯片数仍由（d=设计要求的存储器容量/选择芯片存储器容量）决定。例例33利用利用1K1K8 8位的位的DRAMDRAM芯片设计芯片设计2K2K8 8位的位的DRAMDRAM存储器存储器解：所需芯片数d=（2K8）/（1K8）=2(片)设计的存储器见书上图3.10所示。字长位数不变，地址总线A0A9同时连接到2片DRAM的地址输入端，地址总线最高位有A10、A10，分别作为两片DRAM的片选信号，两个芯片不会同时工作。1K 8 8位位1K 8 8位位D7D0WEA1A0A9CS0A10 1CS13.字字,位同时扩展位同时扩展1K 4位位存储芯片组成存储芯片组成 4K 8位位的存储器的存储器WEA8A9A0.D7D0A11A10CS0CS1CS2CS3片选片选译码译码 1K41K41K41K41K41K41K41K4353.3.4 存储器容量的扩充存储器容量的扩充3、存储器模块条l存储器通常以插槽用模块条形式供应市场。这种模块条常称为内存条，它们是在一个条状形的小印制电路板上，用一定数量的存储器芯片，组成一个存储容量固定的存储模块。如图所示。l内存条有30脚、72脚、100脚、144脚、168脚等多种形式。l30脚内存条设计成8位数据线，存储容量从256KB32MB。l72脚内存条设计成32位数据总线l100脚以上内存条既用于32位数据总线又用于64位数据总线，存储容量从4MB512MB。363.3.5 高级的高级的DRAM结构结构1、FPMDRAM：快速页模式动态存储器，它是根据程序的局部性原理来实现的。读周期和写周期中，为了寻找一个确定的存储单元地址，首先由低电平的行选通信号RAS确定行地址，然后由低电平的列选信号CAS确定列地址。下一次寻找操作，也是由RAS选定行地址，CAS选定列地址，依此类推，如下图所示。CAI373.3.5 高级的高级的DRAM结构结构2、CDRAMCDRAM称为带高速缓冲存储器（cache）的动态存储器，它是在通常的DRAM芯片内又集成了一个小容量的SRAM，从而使DRAM芯片的性能得到显著改进。如图所示出1M4位CDRAM芯片的结构框图，其中SRAM为5124位。CAI383.3.5 高级的高级的DRAM结构结构3、SDRAMSDRAM称为同步型动态存储器。计算机系统中的CPU使用的是系统时钟，SDRAM的操作要求与系统时钟相同步，在系统时钟的控制下从CPU获得地址、数据和控制信息。换句话说，它与CPU的数据交换同步于外部的系统时钟信号，并且以CPU/存储器总线的最高速度运行，而不需要插入等待状态。其原理和时序关系见下一页图和动画。39CAI403.3.5 高级的高级的DRAM结构结构例4CDRAM内存条组成实例。一片CDRAM的容量为1M4位，8片这样的芯片可组成1M32位4MB的存储模块，其组成如下图所示。CAI413.3.6 DRAM主存读主存读/写的正确性校验写的正确性校验DRAM通常用做主存储器，其读写操作的正确性与可靠性至关重要。为此除了正常的数据位宽度，还增加了附加位，用于读/写操作正确性校验。增加的附加位也要同数据位一起写入DRAM中保存。其原理如图所示。CAI423.4 只读存储器和闪速存储器只读存储器和闪速存储器3.4.1只读存储器ROM3.4.2FLASH存储器433.4.1 只读存储器只读存储器ROMROM叫做只读存储器。顾名思义，只读的意思是在它工作时只能读出，不能写入。然而其中存储的原始数据，必须在它工作以前写入。只读存储器由于工作可靠，保密性强，在计算机系统中得到广泛的应用。主要有两类：l掩模ROM：掩模ROM实际上是一个存储内容固定的ROM，由生产厂家提供产品。l可编程ROM：用户后写入内容，有些可以多次写入。l一次性编程的PROMl多次编程的EPROM和E2PROM。443.4.1 只读存储器只读存储器ROM1、掩模ROM(1)掩模ROM的阵列结构和存储元CAI453.4.1 只读存储器只读存储器ROM1、掩模ROM(2)掩模ROM的逻辑符号和内部逻辑框图CAI463.4.1 只读存储器只读存储器ROM2、可编程ROMlEPROM叫做光擦除可编程可读存储器。它的存储内容可以根据需要写入，当需要更新时将原存储内容抹去，再写入新的内容。l现以浮栅雪崩注入型MOS管为存储元的EPROM为例进行说明，结构如右图所示。473.4.1 只读存储器只读存储器ROMl2、可编程、可编程ROME2PROM存储元EEPROM，叫做电擦除可编程只读存储器。其存储元是一个具有两个栅极的NMOS管，如图(a)和(b)所示，G1是控制栅，它是一个浮栅，无引出线；G2是抹去栅，它有引出线。在G1栅和漏极D之间有一小面积的氧化层，其厚度极薄，可产生隧道效应。如图(c)所示，当G2栅加20V正脉冲P1时，通过隧道效应，电子由衬底注入到G1浮栅，相当于存储了“1”。利用此方法可将存储器抹成全“1”状态。483.4.2 FLASH存储器存储器FLASH存储器也翻译成闪速存储器，它是高密度非失易失性的读/写存储器。高密度意味着它具有巨大比特数目的存储容量。非易失性意味着存放的数据在没有电源的情况下可以长期保存。总之，它既有RAM的优点，又有ROM的优点，称得上是存储技术划时代的进展。493.4.2 FLASH存储器存储器l1、FLASH存储元在EPROM存储元基础上发展起来的，由此可以看出创新与继承的关系。l如右图所示为闪速存储器中的存储元，由单个MOS晶体管组成，除漏极D和源极S外，还有一个控制栅和浮空栅。CAI503.4.2 FLASH存储器存储器2、FLASH存储器的基本操作存储器的基本操作编程操作、读取操作、擦除操作l如图(a)表示编程操作时存储元写0、写1的情况。实际上编程时只写0，不写1，因为存储元擦除后原始状态全为1。要写0，就是要在控制栅C上加正电压。一旦存储元被编程，存储的数据可保持100年之久而无需外电源。CAI513.4.2 FLASH存储器存储器3、FLASH存储器的阵列结构lFLASH存储器的简化阵列结构如右图所示。在某一时间只有一条行选择线被激活。读操作时，假定某个存储元原存1，那么晶体管导通，与它所在位线接通，有电流通过位线，所经过的负载上产生一个电压降。这个电压降送到比较器的一个输入端，与另一端输入的参照电压做比较，比较器输出一个标志为逻辑1的电平。如果某个存储元原先存0，那么晶体管不导通，位线上没有电流，比较器输出端则产生一个标志为逻辑0的电平。CAI523.5 并行存储器并行存储器3.5.1 双端口存储器双端口存储器3.5.2多模块交叉存储器多模块交叉存储器533.5 并行存储器并行存储器由于CPU和主存储器之间在速度上是不匹配的，这种情况便成为限制高速计算机设计的主要问题。为了提高CPU和主存之间的数据传输率，除了主存采用更高速的技术来缩短读出时间外，还可以采用并行技术的存储器。543.5.1 双端口存储器双端口存储器1、双端口存储器的逻辑结构双端口存储器由于同一个存储器具有两组相互独立的读写控制电路而得名。由于进行并行的独立操作，因而是一种高速工作的存储器，在科研和工程中非常有用。举例说明，双端口存储器IDT7133的逻辑框图。如下页图。553.5.1 双端口存储器双端口存储器CAI563.5.1 双端口存储器双端口存储器2、无冲突读写控制当两个端口的地址不相同时，在两个端口上进行读写操作，一定不会发生冲突。当任一端口被选中驱动时，就可对整个存储器进行存取，每一个端口都有自己的片选控制(CE)和输出驱动控制(OE)。读操作时，端口的OE(低电平有效)打开输出驱动器，由存储矩阵读出的数据就出现在I/O线上。3、有冲突读写控制当两个端口同时存取存储器同一存储单元时，便发生读写冲突。为解决此问题，特设置了BUSY标志。在这种情况下，片上的判断逻辑可以决定对哪个端口优先进行读写操作，而对另一个被延迟的端口置BUSY标志(BUSY变为低电平)，即暂时关闭此端口。573.5.1 双端口存储器双端口存储器有冲突读写控制判断方法(1)如果地址匹配且在CE之前有效，片上的控制逻辑在CEL和CER之间进行判断来选择端口(CE判断)。(2)如果CE在地址匹配之前变低，片上的控制逻辑在左、右地址间进行判断来选择端口(地址有效判断)。无论采用哪种判断方式，延迟端口的BUSY标志都将置位而关闭此端口，而当允许存取的端口完成操作时，延迟端口BUSY标志才进行复位而打开此端口。583.5.1双端口存储器双端口存储器CAI593.5 并行存储器并行存储器1、存储器的模块化组织一个由若干个模块组成的主存储器是线性编址的。这些地址在各模块中如何安排，有两种方式：一种是顺序方式，一种是交叉方式CAI603.5.2 多模块交叉存储器多模块交叉存储器1、顺序方式例M0M3共四个模块，则每个模块8个字顺序方式：M0：07 M1：815 M2：1623 M3：2431l5位地址组织如下：X X X X Xl高位选模块，低位选块内地址l特点：某个模块进行存取时，其他模块不工作，优点是某一模块出现故障时，其他模块可以照常工作，通过增添模块来扩充存储器容量比较方便。缺点是各模块串行工作，存储器的带宽受到了限制。613.5.2 多模块交叉存储器多模块交叉存储器例M0M3共四个模块，则每个模块8个字l交叉方式：l M0：0，4,.除以4余数为0l M1：1，5,.除以4余数为1l M2：2，6,.除以4余数为2l M3：3，7,.除以4余数为3l5位地址组织如下：X X X X Xl高位选块内地址，低位选模块l特点：连续地址分布在相邻的不同模块内，同一个模块内的地址都是不连续的。优点是对连续字的成块传送可实现多模块流水式并行存取，大大提高存储器的带宽。使用场合为成批数据读取。623.5.2 多模块交叉存储器多模块交叉存储器2、多模块交叉存储器的基本结构右图为四模块交叉存储器结构框图。主存被分成4个相互独立、容量相同的模块M0，M1，M2，M3，每个模块都有自己的读写控制电路、地址寄存器和数据寄存器，各自以等同的方式与CPU传送信息。在理想情况下，如果程序段或数据块都是连续地在主存中存取，那么将大大提高主存的访问速度。CPU同时访问四个模块，由存储器控制部件控制他们分时使用数据总线进行信息传递。对每一个模块来说，从CPU给出访存命令直到读出信息仍然使用了一个存取周期，对CPU来说，它可以在一个存取周期内连续访问四个模块，各模块读写重叠进行。所以多模块交叉存储器是一种并行存储结构。CAI633.5.2 多模块交叉存储器多模块交叉存储器l通常在一个存储器周期内，m个存储体必须分时启动，则各个存储体的启动间隔为t=T/m（m为交叉存取度）l连续读取m个字所需时间分别是CAI64例例5 设存储器容量为设存储器容量为32字，字长字，字长64位，模块数位，模块数m=4，分，分别用顺序方式和交叉方式进行组织。存储周期别用顺序方式和交叉方式进行组织。存储周期T=200ns，数据总线宽度为，数据总线宽度为64位，总线传送周期位，总线传送周期=50ns。若连续。若连续读出读出4个字，问顺序存储器和交叉存储器的带宽各是多个字，问顺序存储器和交叉存储器的带宽各是多少少?解：顺序存储器和交叉存储器连续读出m=4个字的信息总量都是：q=64b4=256b顺序存储器和交叉存储器连续读出4个字所需的时间分别是：t2=mT=4200ns=800ns=810-7st1=T+(m-1)t=200ns+150ns=350ns=3.510-7s顺序存储器和交叉存储器的带宽分别是：W2=q/t2=256b(810-7)s=320Mb/sW1=q/t1=256b(3.510-7)s=730Mb/s65 3、二模块交叉存储器举例、二模块交叉存储器举例3.5.2 多模块交叉存储器多模块交叉存储器CAI66 3、二模块交叉存储器举例、二模块交叉存储器举例3.5.2 多模块交叉存储器多模块交叉存储器CAI673.6 cache存储器存储器3.6.1 cache基本原理基本原理3.6.2 主存与主存与cache的地址映射的地址映射3.6.3替换策略替换策略3.6.4 cache的写操作策略的写操作策略3.6.5Pentium4的的cache组织组织3.6.6使用多级使用多级cache减少缺失损失减少缺失损失683.6.1 cache基本原理基本原理1、cache的功能解决CPU和主存之间的速度不匹配问题，基于程序运行的空间局部性和时间局部性原理。时间局部性是指如果程序中的某条指令一旦执行，则不久之后该指令可能再次被执行；如果某数据被访问，则不久之后该数据可能再次被访问。空间局部性是指一旦程序访问了某个存储单元，则不久之后，其附近的存储单元也将被访问。693.6.1 cache基本原理基本原理CACHE是介于主存与CPU之间的小容量存储器，一般采用高速的SRAM构成。Cache典型值是几百KB，Cache能向CPU高速提供指令和数据，加快程序执行速度CPU和主存之间的速度差别很大采用两级或多级Cache系统早期的一级Cache在CPU内，二级在主板上现在的CPU内带L1Cache和L2Cache，片内Cache速度接近CPU全由硬件调度，对用户透明703.6.1 cache基本原理基本原理当CPU读取内存中的一个字时，便发出该字的内存地址到Cache和主存。Cache控制逻辑根据地址判断此字当前是否在Cache中，若是，此字立即传送给Cache,若不是，则用主存读周期把此字从主存读出送到CPU，与此同时，把含有这个字的整个数据块从主存读出送到Cache中2、cache基本原理CPU-Cache以字为单位，Cache-主存以块为单位,一个块由若干个字组成是定长的图中Cache分成4行，每行4个字(W)，分配给Cache的地址存放在一个相联存储器CAM中，当CPU执行访存指令时，把所需访问字的地址放到CAM,如果W不在Cache中，则将W从主存传送到Cache。与此同时，把包含W的前后相继的4个字所在的一行数据放到Cache。713.6.1 cache基本原理基本原理3、Cache的命中率从CPU来看，增加一个cache的目的，就是在性能上使主存的平均读出时间尽可能接近cache的读出时间。为了达到这个目的，在所有的存储器访问中由cache满足CPU需要的部分应占很高的比例，即cache的命中率应接近于1。由于程序访问的局部性，实现这个目标是可能的。723.6.1 cache基本原理基本原理3、cache命中率公式命中率命中率 Cache/主存系统的主存系统的平均访问时间平均访问时间访问效率访问效率Cache与内存的速与内存的速度比度比73例例6 CPU执行一段程序时，执行一段程序时，cache完成存取的次数完成存取的次数为为1900次，主存完成存取的次数为次，主存完成存取的次数为100次，已知次，已知cache存取周期为存取周期为50ns，主存存取周期为，主存存取周期为250ns，求求cache/主存系统的效率和平均访问时间。主存系统的效率和平均访问时间。解：lh=Nc/（Nc+Nm）=1900/(1900+100)=0.95lr=tm/tc=250ns/50ns=5le=1/(r+(1-r)h)=1/(5+(1-5)0.95=83.3%lta=tc/e=50ns/0.833=60ns743.6.2主存与主存与Cache的地址映射的地址映射l无论选择那种映射方式，都要把主存和cache划分为同样大小的“块”。l选择哪种映射方式，要考虑：l硬件是否容易实现l地址变换的速度是否快l主存空间的利用率是否高l主存装入一块时，发生冲突的概率l以下我们介绍三种映射方法751、全相联的映射方式（1）将地址分为两部分（块号和字），在内存块写入Cache时，同时写入块号标记；主存的一个块可以映射到Cache任意一行（2）CPU给出访问地址后，也将地址分为两部分（块号和字），比较电路块号与Cache表中的标记进行比较，相同表示命中，访问相应单元；如果没有命中访问内存，CPU直接访问内存，并将被访问内存的相对应块写入Cache。3.6.2 主存与主存与cache的地址映射的地址映射761、全相全相联的联的映射映射方式方式CAI773.6.2 主存与主存与cache的地址映射的地址映射1、全相联的映射方式转换公式主存地址长度主存地址长度(s+w)位位寻址单元数寻址单元数2w个字或字节个字或字节块大小块大小行大小行大小2w个字或字节个字或字节主存的块数主存的块数2s标记大小标记大小s位位cache的行数的行数不由地址格式确定不由地址格式确定783.6.2 主存与主存与cache的地址映射的地址映射1、全相联的映射方式特点：l优点：冲突概率小，Cache的利用高。l缺点：比较器难实现，需要一个访问速度很快代价高的相联存储器应用场合：l适用于小容量的Cache793.6.2 主存与主存与cache的地址映射的地址映射2、直接映射方式映射方法（多对一）如：li=jmodm(m是Cache总行数)l主存第j块内容拷贝到Cache的i行l一般I和m都是2N级例cache容量16字，主存容量256字，则地址2，18，34.242等都存放在cache的地址2内，如果第一次2在cache中，下次访问34内容，则不管cache其他位置的内容访问情况，都会引起2块内容的替换802、直接映直接映射射方式方式2、基本原理l利用行号选择相应行；l把行标记与CPU访问地址进行比较，相同表示命中，访问Cache；l如果没有命中，访问内存，并将相应块写入CacheCAI813.6.2 主存与主存与cache的地址映射的地址映射2、直接映射方式转换公式主存地址长度主存地址长度(s+w)位位寻址单元数寻址单元数2s+w个字或字节个字或字节块大小块大小行大小行大小2w个字或字节个字或字节主存的块数主存的块数2scache的行数的行数m2r标记大小标记大小(s-r)位位823.6.2 主存与主存与cache的地址映射的地址映射2、直接映射方式特点l优点：比较电路少m倍线路，所以硬件实现简单，Cache地址为主存地址的低几位，不需变换。l缺点：冲突概率高，若块号相距m整数倍的两个块存于同一Cache行时就要发生冲突。解决的办法是将原来存入的行换出去，但可能过段时间又要换入。频繁的置换会使Cache的效率下降（抖动）应用场合l适合大容量Cache，采用更多的行可以减少冲突833.6.2 主存与主存与cache的地址映射的地址映射3、组相联映射方式l全相联：存放位置灵活，命中率高l直接映射：比较器电路和硬件实现简单l组相联是前两者的组合lCache分组，组间采用直接映射方式，组内采用全相联的映射方式lCache分组U，组内容量V行l映射方法（一对多）lq=jmodul主存第j块内容拷贝到Cache的q组中的某行l地址变换l设主存地址x，看是不是在cache中，先y=xmodu，则在y组中一次查找843.6.2 主存与主存与cache的地址映射的地址映射3、组相联映射方式l分析：比全相联容易实现，冲突低lv=1，则为直接相联映射方式lu=1，则为全相联映射方式lv的取值一般比较小，一般是2的幂，称之为v路组相联cache.85CAI863.6.2 主存与主存与cache的地址映射的地址映射3、组相联映射方式转换公式主存地址长度主存地址长度(s+w)位位寻址单元数寻址单元数2s+w个字或字节个字或字节块大小块大小行大小行大小2w个字或字节个字或字节主存的块数主存的块数2s每组的行数每组的行数k每组的每组的v2dcache的行数的行数kv标记大小标记大小(s-d)位位873.6.2 主存与主存与cache的地址映射的地址映射例例7 直接映射方式的内存地址格式如下所示直接映射方式的内存地址格式如下所示标记标记s-r 行行 r 字地址字地址w 8位位 14位位 2位位若主存地址用十六进制表示若主存地址用十六进制表示BBBBBB，用十六进制格，用十六进制格式表示直接映射方式式表示直接映射方式Cache的标记的标记，行，字地址的值，行，字地址的值解解：(BBBBBB)16=(1011 1011 1011 1011 1011 1011 1011)2标记标记 s-r=(1011 1011)2=(BB)16行行r=(1011 1011 1011 10)2=(2EEE)16字地址字地址w=(11)2=(3)16883.6.2 主存与主存与cache的地址映射的地址映射例8：一个组相联cache由64个行组成，每组4行。主存包含4K个块，每块128字。请表示内存地址的格式。解：块大小行大小2w个字12827w7每组的行数k4cache的行数kvK2d42d64d4组数v2d2416主存的块数2s4K2221022s12标记大小(s-d)位12-48位主存地址长度(s+w)位12+719位主存寻址单元数2s+w219故k4各组相联的内存地址格式如下所示：标记标记s-d组号组号d字号字号w8位位 4位位 7位位3.6.2 主存与主存与cache的地址映射的地址映射l例9有一个处理器，主存容量是1MB,字长1B,块大小16B,Cach容量64KB,采用全相联映射，对内存地址B0010给出相应的标记和字号。l解：块大小=行大小=16B=24,所以W=4位l主存寻址单元数2s+w=1M=120,s+w=20,s=16位l内存地址格式标记s字地址wl16位4位l内存地址B0010=10110000000000010000l标记s=(1011000000000001)2字地址=(0000)23.6.2 主存与主存与cache的地址映射的地址映射l例10假设主存容量是512KB，Cache容量是4KB,每块16个字，每个字32位。l(1)Cache地址多少位?可容纳多少块?l(2)主存地址多少位?可容纳多少块?l(3)在直接映射方式下。主存的第几块映射到Cache中的第5块(设起始块为第一块)？l(4)画出直接映射方式下主存地址格式3.6.2 主存与主存与cache的地址映射的地址映射l解答：(1)Cache容量是4KB(212=4K)，cache地址12位，cache块数=4KB/(16*4B)=64l(2)主存容量512KB(219=512K)，主存地址19位，主存块数=512KB/(16*4B)=8192l(3)在直接映射方式下，cache64块，所以主存的5,64+5,2*64+5,.213-64+5块映射到cache的第5块l(4)标记块地址字地址l7663.6.2 主存与主存与cache的地址映射的地址映射l例11设某机主存容量是16MB，cache容量是8KB。每块8个字，每字32位，设计一个四路组相连映射的cache组织。l（1）画出主存地址各字段的位数l（2）设cache状态为空，CPU依次从主存第0，1,2，。99号单元读出100个字（主存一次读出一个字），并重复此程序读10次，求命中率l（3）若cache的速度是主存速度的5倍，有cache和无cache相比，速度提高多少倍?l（4）系统的效率是多少?3.6.2 主存与主存与cache的地址映射的地址映射l解答(1)每个块有8个字，每字32b=4B，块内字地址5位，Cache组数8KB/(8*32/8*4B)=64组，组地址6位，主存容量16MB=224B，主存地址24位，标记位24-6-5=13位l标记组地址字地址l1365l(2)由于每个块有8个字，而且Cache初态为空，因此cpu读0号单元未命中，必须访问主存，同时将该字所在的主存块调入cache第0组的任一块内，接着读1-7号单元均命中。同理CPU读第8，16，。96号单元均未命中。可见CPU在连续读100个字共有13次未命中，而后9次循环读100个字全部命中，l命中率=（100*10-13）/(100*10)=0.9873.6.2 主存与主存与cache的地址映射的地址映射l(3)设主存存取周期是5t，cache存取周期是t，没有cache的访问时间是5t*1000,有cache的访问时间是t(1000-13)+5t*13，速度提高倍数是l5t*1000/(t(1000-13)+5t*13)-1=3.75l(4)e=t/(0.987*t+(1-0.987)*5t)=95%953.6.3 替换策略替换策略l直接映射:一个主存块只有一个特定位置存放l全相联和组相联：从允许存放新主存块的若干行选择一行lLFU（最不经常使用）：将一段时间内被访问次数最少的行换出。每行设置一个计数器，新行建立后从0开始计数，每访问一次，被访问的行计数器增加1。替换时，对特定行的计数值进行比较，换值小的行，同时将这些特定行的计数器清零。该算法将计数周期限定在对特定行两次替换之间的间隔时间内，不能反映近期cache的访问情况。lLRU（近期最少使用）：近期内长久没被访问的行换出。每行也设置一个计数器，Cache命中时被访问的行计数器置0，其他的计数器增加1。替换时，换值大的行。保护了刚拷贝到Cache中的新数据行，符合cache的工作原理,使Cache有较高的工作效率。l随机替换：随机替换策略实际上是不要什么算法，从特定的行位置中随机地选取一行换出即可。这种策略在硬件上容易实现，且速度也比前两种策略快。缺点是随意换出的数据很可能马上又要使用，从而降低命中率和cache工作效率。但这个不足随着cache容量增大而减小。随机替换策略的功效只是稍逊于前两种策略。963.6.4 写操作策略写操作策略l由于cache的内容只是主存部分内容的拷贝，它应当与主存内容保持一致。而CPU对cache的写入更改了cache的内容。如何与主存内容保持一致，可选用如下三种写操作策略。写回法：CPU写Cache命中时，只修改Cache的内容，不立即写入主存。只有当此行被换出时才写回主存。对一个Cache行的多次写命中都在Cache中完成，只是需要替换的时候才写回速度较慢的主存，减少了访问主存的次数。实现时，每行设置一个修改位，反映此行是否被CPU修改过。换出时，对行的修改位进行判断，决定是写回还是简单舍掉。如果CPU写Cache未命中，为了包含欲写字的主存块在Cache分配一行，将此块整个拷贝到Cache后再进行修改。对主存的读写操作统一保留到换出时进行。写Cache与写主存是异步的方式，减少了访问主存的次数，但是存在不一致性的隐患。3.6.4 写操作策略写操作策略全写法：写Cache命中时，Cache与内存一起写,维护了主存与Cache的一致性。当写Cache未命中时，只能向主存直接写入。是否将修改过的主存块取到Cache,有两种方法。WTWA：取主存块到Cache.WTNWA:不取主存块到Cache.优点是每行不需要设置修改位和逻辑判断。缺点是:Cache对CPU向主存的写操所无高速缓存的功能，降低了Cache的功效。写一次法：与命中与写未命中时与写回法一致，但是第一次Cache命中时采用全写法，写入主存。因为第一次写Cache命中时，CPU要在总线上启动一个写周期，其他Cache监听到此主存块及写信号后，即可拷贝该块或者及时作废，以便维护系统全部Cache的一致性。983.6.5 Pentium 4的的Cache组织组织主要包括四个部分：l取指/译码单元：顺序从L2cache中取程序指令，将它们译成一系列的微指令，并存入L1指令cache中。l乱序执行逻辑：依据数据相关性和资源可用性，调度微指令的执行，因而微指令可按不同于所取机器指令流的顺序被调度执行。l执行单元：它执行微指令，从L1数据cache中取所需数据，并在寄存器组中暂存运算结果。l存储器子系统：这部分包括L2cache、L3cache和系统总线。当L1、L2cache未命中时，使用系统总线访问主存。系统总线还用于访问I/O资源。不同于所有先前Pentium模式和大多数处理器所采用的结构，Pentium4的指令cache位于指令译码逻辑和执行部件之间。其设计理念是：Pentium4将机器指令译成由微指令组成的简单RISC类指令，而使用简单定长的微指令可允许采用超标量流水线和调度技术，从而增强机器的性能。993.6.5 Pentium 的的Cache组织组织l基本原理见下图CAI1003.6.6 使用多级使用多级cache减少缺失损失减少缺失损失为进一步缩小现代CPU和DRAM访问速度的差距，CPU支持附加一级的cache。二级cache在访问主cache缺失时被访问，各级cache都不包含所访问数据时，需要访问主存储器。例10现有一处理器，基本CPI为1.0，所有访问在第一级cache中命中，时钟频率5GHz。假定访问一次主存储器的时间为100ns，其中包括所有缺失处理。设平均每条指令在第一级cache中产生的缺失率为2%。若增加一个二级cache，命中或缺失的访问时间都为5ns，且容量大到可使必须访问主存的缺失率降为0.5%，问处理器速度提高多少。解得只有一级cache的CPU：总的CPI11.0有二级cache的CPU：总的CPI4.0后者是前者CPU性能的：11.04.02.8倍1013.7 虚拟存储器虚拟存储器3.7.1 虚拟存储器的基本概念虚拟存储器的基本概念3.7.2 页式虚拟存储器页式虚拟存储器3.7.3段式虚拟存储器和段页式虚拟存储器段式虚拟存储器和段页式虚拟存储器3.7.4 虚存的替换算法虚存的替换算法返回1023.7.1 虚拟存储器的基本概念虚拟存储器的基本概念1、实地址与虚地址:用户编制程序时使用的地址称为虚地址或逻辑地址，其对应的存储空间称为虚存空间或逻辑地址空间；而计算机物理内存的访问地址则称为实地地或物理地址，其对应的存储空间称为物理存储空间或主存空间。程序进行虚地址到实地址转换的过程称为程序的再定位。1033.7.1 虚拟存储器的基本概念虚拟存储器的基本概念2、虚存的访问过程虚存空间的用户程序按照虚地址编程并存放在辅存中。程序运行时，由地址变换机构依据当时分配给该程序的实地址空间把程序的一部分调入实存。每次访存时，首先判断该虚地址所对应的部分是否在实存中：如果是，则进行地址转换并用实地址访问主存；否则，按照某种算法将辅存中的部分程序调度进内存，再按同样的方法访问主存。由此可见，每个程序的虚地址空间可以远大于实地址空间，也可以远小于实地址空间。前一种情况以提高存储容量为目的，后一种情况则以地址变换为目的。后者通常出现在多用户或多任务系统中：实存空间较大，而单个任务并不需要很大的地址空间，较小的虚存空间则可以缩短指令中地址字段的长度。1043.7.1 虚拟存储器的基本概念虚拟存储器的基本概念3、cache与虚存的异同l从虚存的概念可以看出，主存辅存的访问机制与cache主存的访问机制是类似的。这是由cache存储器、主存和辅存构成的三级存储体系中的两个层次。lcache和主存之间以及主存和辅存之间分别有辅助硬件和辅助软硬件负责地址变换与管理，以便各级存储器能够组成有机的三级存储体系。cache和主存构成了系统的内存，而主存和辅存依靠辅助软硬件的支持构成了虚拟存储器。1053.7.1 虚拟存储器的基本概念虚拟存储器的基本概念在三级存储体系中，cache主存和主存辅存这两个存储层次有许多相同点；(1)出发点相同出发点相同二者都是为了提高存储系统的性能价格比而构造的分层存储体系，都力图使存储系统的性能接近高速存储器，而价格和容量接近低速存储器。(2)原理相同原理相同都是利用了程序运行时的局部性原理把最近常用的信息块从相对慢速而大容量的存储器调入相对高速而小容量的存储器。但cache主存和主存辅存这两个存储层次也有许多不同之处：(3)侧重点不同侧重点不同cache主要解决主存与CPU的速度差异问题；而就性能价格比的提高而言，虚存主要是解决存储容量问题，另外还包括存储管理、主存分配和存储保护等方面。(4)数据通路不同数据通路不同CPU与cache和主存之间均有直接访问通路，cache不命中时可直接访问主存；而虚存所依赖的辅存与CPU之间不存在直接的数据通路，当主存不命中时只能通过调页解决，CPU最终还是要访问主存。(5)透明性不同透明性不同cache的管理完全由硬件完成，对系统程序员和应用程序员均透明；而虚存管理由软件（操作系统）和硬件共同完成，由于软件的介入，虚存对实现存储管理的系统程序员不透明，而只对应用程序员透明（段式和段页式管理对应用程序员“半透明”）。(6)未命中时的损失不同未命中时的损失不同由于主存的存取时间是cache的存取时间的510倍，而主存的存取速度通常比辅存的存取速度快上千倍，故主存未命中时系统的性能损失要远大于cache未命中时的损失。1063.7.1 虚拟存储器的基本概念虚拟存储器的基本概念4、虚存机制要解决的关键问题(1)调度问题决定哪些程序和数据应被调入主存。(2)地址映射问题在访问主存时把虚地址变为主存物理地址（这一过程称为内地址变换）；在访问辅存时把虚地址变成辅存的物理地址（这一过程称为外地址变换），以便换页。此外还要解决主存分配、存储保护与程序再定位等问题。(3)替换问题决定哪些程序和数据应被调出主存。(4)更新问题确保主存与辅存的一致性。l在操作系统的控制下，硬件和系统软件为用户解决了上述问题，从而使应用程序的编程大大简化。1073.7.2 页式虚拟存储器页式虚拟存储器1、页式虚存地址映射页式虚拟存储系统中，虚地址空间被分成等长大小的页，称为逻辑页；主存空间也被分成同样大小的页，称为物理页。相应地，虚地址分为两个字段：高字段为逻辑页号，低字段为页内地址（偏移量）；实存地址也分两个字段：高字段为物理页号，低字段为页内地址。通过页表可以把虚地址（逻辑地址）转换成物理地址。页式虚拟存储器的地址映射过程见下图。1083.7.2 页式虚拟存储器页式虚拟存储器1、页式虚存地址映射CAI1093.7.2 页式虚拟存储器页式虚拟存储器1、页式虚存地址映射l在大多数系统中，每个进程对应一个页表。页表中对应每一个虚存页面有一个表项，表项的内容包含该虚存页面所在的主存页面的地址（物理页号），以及指示该逻辑页是否已调入主存的有效位。地址变换时，用逻辑页号作为页表内的偏移地址索引页表（将虚页号看作页表数组下标）并找到相应物理页号，用物理页号作为实存地址的高字段，再与虚地址的页内偏移量拼接，就构成完整的物理地址。现代的中央处理机通常有专门的硬件支持地址变换。l每个进程所需的页数并不固定，所以页表的长度是可变的，因此通常的实现方法是把页表的基地址保存在寄存器中，而页表本身则放在主存中。由于虚存地址空间可以很大，因而每个进程的页表有可能非常长。例如，如果一个进程的虚地址空间为2G字节，每页的大小为512字节，则总的虚页数为231/29=222。1103.7.2 页式虚拟存储器页式虚拟存储器l为了节省页表本身占用的主存空间，一些系统把页表存储在虚存中，因而页表本身也要进行分页。当一个进程运行时，其页表中一部分在主存中，另一部分则在辅存中保存。l另一些系统采用二级页表结构。每个进程有一个页目录表，其中的每个表项指向一个页表。因此，若页目录表的长度（表项数）是m,每个页表的最大长度（表项数）为n,则一个进程最多可以有mn个页。l在页表长度较大的系统中，还可以采用反向页表实现物理页号到逻辑页号的反向映射。页表中对应每一个物理页号有一个表项，表项的内容包含该物理页所对应的逻辑页号。访存时，通过逻辑页号在反向页表中逐一查找。如果找到匹配的页，则用表项中的物理页号取代逻辑页号；如果没有匹配表项，则说明该页不在主存中。这种方式的优点是页表所占空间大大缩小，但代价是需要对反向页表进行检索，查表的时间很长。有些系统通过散列（哈希）表加以改进。1113.7.2 页式虚拟存储器页式虚拟存储器2、转换后援缓冲器l由于页表通常在主存中，因而即使逻辑页已经在主存中，也至少要访问两次物理存储器才能实现一次访存，这将使虚拟存储器的存取时间加倍。为了避免对主存访问次数的增多，可以对页表本身实行二级缓存，把页表中的最活跃的部分存放在高速存储器中，组成快表。这个专用于页表缓存的高速存储部件通常称为转换后援缓冲器(TLB)。保存在主存中的完整页表则称为慢表。1123.7.2 页式虚拟存储器页式虚拟存储器TLB的地址映射过程见图CAI1133.7.2 页式虚拟存储器页式虚拟存储器l内页表和外页表页表是虚地址到主存物理地址的变换表，通常称为内页表。与内页表对应的还有外页表，用于虚地址与辅存地址之间的变换。当主存缺页时，调页操作首先要定位辅存，而外页表的结构与辅存的寻址机制密切相关。例如对磁盘而言，辅存地址包括磁盘机号、磁头号、磁道号和扇区号等。1143.7.3 段式虚拟存储器和段页式虚段式虚拟存储器和段页式虚拟存储器拟存储器1、段式虚拟存储器：段是按照程序的自然分界划分的长度可以动态改变的区域。通常，程序员把子程序、操作数和常数等不同类型的数据划分到不同的段中，并且每个程序可以有多个相同类型的段。在段式虚拟存储系统中，虚地址由段号和段内地址（偏移量）组成。虚地址到实主存地址的变换通过段表实现。每个程序设置一个段表，段表的每一个表项对应一个段。每个表项至少包含下

展开阅读全文

计算机组成原理第三章多层次的存储器

最新文档