计算机系统结构第2版郑伟明汤志忠课后习题答案以及例题收录.doc

资源描述

计算机系统结构(第2版) 郑伟明汤志忠编著清华大学出版社习题解答1 目录1.1 第一章(P33)1.7-1.9（透明性概念），1.12-1.18（Amdahl定律），1.19、1.21、1.24（CPI/MIPS）1.2 第二章(P124)2.3、2.5、2.6（浮点数性能），2.13、2.15（指令编码）1.3 第三章(P202)3.3（存储层次性能），3.5（并行主存系统），3.15-3.15加1题（堆栈模拟），3.19中(3)(4)(6)(8)问（地址映象/替换算法-实存状况图）1.4 第四章(P250)4.5（中断屏蔽字表/中断过程示意图），4.8（通道流量计算/通道时间图）1.5 第五章(P343)5.9（流水线性能/时空图），5.15（2种调度算法）1.6 第六章(P391)6.6（向量流水时间计算），6.10（Amdahl定律/MFLOPS）1.7 第七章(P446)7.3、7.29（互连函数计算），7.6-7.14（互连网性质），7.4、7.5、7.26（多级网寻径算法），7.27（寻径/选播算法）1.8 第八章(P498)8.12（SISD/SIMD算法）1.9 第九章(P562)9.18（SISD/多功能部件/SIMD/MIMD算法）(注：每章可选1-2个主要知识点，每个知识点可只选1题。有下划线者为推荐的主要知识点。)2 例, 习题2.1 第一章(P33)例1.1,p10假设将某系统的某一部件的处理速度加快到10倍,但该部件的原处理时间仅为整个运行时间的40%，则采用加快措施后能使整个系统的性能提高多少？解：由题意可知：Fe=0.4, Se=10，根据Amdahl定律例1.2,p10采用哪种实现技术来求浮点数平方根FPSQR的操作对系统的性能影响较大。假设FPSQR操作占整个测试程序执行时间的20%。一种实现方法是采用FPSQR硬件，使FPSQR操作的速度加快到10倍。另一种实现方法是使所有浮点数据指令的速度加快，使FP指令的速度加快到2倍，还假设FP指令占整个执行时间的50%。请比较这两种设计方案。解：分别计算出这两种设计方案所能得到的加速比：Fe FPSQR=0.20,Se FPSQR=10Fe FP=0.50,Se FP=2例1.3,p11如果FP操作的比例为25%，FP操作的平均CPI=4.0，其它指令的平均CPI为1.33，FPSQR操作的比例为2%， FPSQR的CPI为20。假设有两种设计方案，分别把FPSQR操作的CPI和所有FP操作的CPI减为2。试利用CPU性能公式比较这两种设计方案哪一个更好(只改变CPI而时钟频率和指令条数保持不变)。解：原系统的CPIFP=4.0, =25%CPI2=1.33, =1-25%CPI原 = CPIFP + CPI2=4.025% + 1.3375%=2方案1（使FPSQR操作的CPI为2）系统 CPI=CPI原 - CPIFPSQR原 + CPIFPSQR新=CPI原 - （CPIFPSQR原 - CPIFPSQR新）=2-2%（20-2）=1.64方案2（提高所有FP指令的处理速度, 使FPSQR操作的CPI为2）CPI=CPI原 - CPIFP原 + CPIFP新=CPI原 - （CPIFP原 - CPIFP新）=2-25% （4-2）=1.5我们也可以根据以下公式计算出方案2系统（同求CPI原）CPI= 75%1.33+25%2=1.5显然，提高所有FP指令处理速度的方案要比提高FPSQR处理速度的方案要好。方案2的加速比=2/1.5=1.33例1.4假设两台机器的指令系统中，执行条件转移指令需2个时钟周期，而其它指令只需1个时钟周期。CPUA:采用一条比较指令来设置相应的条件码，由紧随其后的一条转移指令对此条件码进行测试，以确定是否进行转移。显然实现一次条件转移要执行比较和测试两条指令。条件转移指令占总执行指令条数的20%。由于每条转移指令都需要一条比较指令，所以比较指令也将占20%。CPUB采用比较功能和判别是否实现转移功能合在一条指令的方法，这样实现一条件转移就只需一条指令就可以完成。由于CPUB在转移指令中包含了比较功能，因此它的时钟周期就比CPUA要慢25%。现在要问，采用不同转移指令方案的CPUA和CPUB，那个工作速度会更快些？解：CPIA=0.22+0.81=1.2TCPUA=ICA1.2tA= 1.2 ICAtACPUB转移指令占20%80%=25%CPIB = 0.252+0.751=1.25由于CPUB中没有比较指令，因此ICB = 0.8ICACPUB时钟周期就比CPUA要慢25%tB = 1.25tATCPUB = ICBCPIBtB = 0.8 ICA1.251.25tA = 1.25 ICAtATCPUATCPUB所以CPUB比CPUA运行得更快些。例1.A1计算Pentium II 450(IPC2)处理机的运算速度。解：由于PentiumII 450处理机的IPC2 (或CPI0.5)Fz450MHz，MIPSPentium II 450FzIPC450 MHz2900(MIPS)例1.A2我国最早研制的小型计算机DJS-130，定点16位，加法每秒50万次，但没有硬件乘法和除法指令,用软件实现乘法和除法，速度低100倍左右。求等效速度。解：定点等效速度为：即每秒2万次，由于乘法和除法用软件实现，等效速度降低了25倍。例1.A3假设在程序中浮点开平方操作FPSQR的比例为2，它的CPI为100；其他浮点操作FP的比例为23，它的CPI 4.0；其余75指令的CPI1.33，计算该处理机的等效CPI。如果FPSQR操作的CPI也为4.0，重新计算等效CPI。解：等效CPI10024231.33753.92等效CPI24251.33752.001.1解释下列术语层次结构，计算机系统结构，计算机组成，计算机实现，透明性，由上而下设计，由下而上设计，由中间向两边设计，软件兼容，向上兼容，固件，系列机，兼容机，模拟，仿真，虚拟机，宿主机，指令流，数据流，单指令流单数据流，多指令流多数据流，Amdahl定律，CPI，MIPS，MFLOPS。1.2每一级为了执行一条指令需要下一级的N条指令解释，若执行第一级的一条指令需kns，那么执行第2级、第3级、第4级的指令需要多少时间？第1级 1条1级指令 k ns第2级 1条2级指令 N条1级指令 1Nk ns = Nk ns第3级 1条3级指令 N条2级指令 1NNk ns = N2k ns第4级 1条4级指令 N条3级指令 1NNNk ns = N3k ns1.4每一级指令能完成下一级的M条指令的工作量，且每一级指令需要下一级的N条指令解释，若执行第一级的一条指令需kns，那么执行第2级、第3级、第4级的等效程序需要多少时间？第1级 1条1级指令 k ns第2级等效程序为1/M条2级指令需N/M条1级指令解释 N/Mk ns第3级等效程序为1/M/M条3级指令需NN/M/M条1级指令解释 N2/M2 ns第4级等效程序为1/M/M/M条4级指令需NNN/M/M/M条1级指令解释 N3/M3 ns1.6试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与相互影响。系统结构、组成和实现是三个不同的概念，它们各自包含不同的内容，但又有紧密的关系。以存储系统为例，主存储器容量和寻址方式的确定属计算机系统结构，主存的速度应多高，在逻辑结构上采用什么措施属计算机组成，而主存的物理实现，如存储器采用什么样器件，逻辑电路设计和微组装技术则属计算机实现。1.7什么是透明性概念？对计算机系统结构，下列哪些是透明的？哪些是不透明的？n 存贮器的模m交叉存取；透明（组成）n 浮点数据表示；不透明（系统结构）n I/O系统是采用通道方式还是I/O处理机方式；不透明n 数据总线宽度；透明（组成）n 阵列运算部件；透明（组成）n 通道是采用结合型的还是独立型的；透明（组成）n PDP-11系列中的单总线结构；不透明（系统结构）n 访问方式保护；不透明（系统结构）n 程序性中断；不透明（系统结构）n 串行、重叠还是流水控制方式；透明（组成）n 堆栈指令；存贮最小编址单位；不透明（系统结构）n Cache存贮器。透明（组成）(1)从指定角度来看，不必要了解的知识称为透明性概念。(2)见下表，“”为透明性概念。模m交叉，浮点数据，P4通道与I/O处理机，P4总线宽度，阵列运算部件，结合型与独立型通道，单总线，访问保护，中断，指令控制方式，堆栈指令，最小编址单位，Cache存储器，1.8从机器（汇编）语言程序员看，以下哪些是透明的？n 指令地址寄存器；指令缓冲器；时标发生器；条件码寄存器；乘法器；主存地址寄存器；磁盘外设；先行进位链；移位器；通用寄存器；中断字寄存器。见下表，“”为透明性概念指令地址寄存器，指令缓冲器，时标发生器，条件码寄存器，乘法器，主存地址寄存器，磁盘，先行进位链，移位器，通用寄存器，中断字寄存器，1.9见下表，“”表示都透明，“应”表示仅对应用程序员透明，“”表示都不透明。数据通路宽度，虚拟存储器，应，Cache存储器，程序状态字，“启动I/O”指令，应，“执行”指令，指令缓冲寄存器，1.12如果某一计算任务用向量方式求解比用标量方式求解要快20倍，称可用向量方式求解部分所花费时间占总的时间的百分比为可向量化百分比。请画出加速比与可向量化比例两者关系的曲线。解：可向量化百分比为Fe, Se=20，根据Amdahl定律将Se代入Amdahl定律得1.13在题1.12中，为达到加速比2，可向量化的百分比应为多少？=2则可向量化的百分比Fe=0.5261.14在题1.12中，为获得采用向量方式最大加速比的半值（即10）时，所需可向量化的百分比为多少。=10则可向量化的百分比Fe=0.9471.15在题1.12中，如果某程序可向量化部分为70%，硬件设计组认为可以通过加大工程投资，使向量处理速度加倍来进一步增加性能；而编译程序编写组认为只需设法增加向量工作方式的百分比就同样可使性能得到相同的提高，问：此时需使可向量化成分再增加多少百分比就可实现。你认为上述硬、软件两种方法中，哪一种方法更好？(1)用硬件组方法，已知Se=2 X 20 =40，Fe=0.7解出Sn=40/12.73.1496(2)用软件组方法，已知Se=20，得到硬件组方法的相同性能Sn=40/12.7解出Fe=27.3/380.7184(3)结论：软件组方法更好。因为硬件组需要将Se再提高100%（2040），而软件组只需将Fe再提高1.84%（0.70.7184）。1.16某计算机的高速小容量存储器能存储2000条指令。假设10的指令承担了90%的指令访问且对这10的指令的使用是均匀的（即其中每条指令的执行时间相同）。如果要执行的某程序共有50 000条指令且已知其中的10%是频繁使用的，则当该计算机执行该程序时，在高速小容量存储器中能访问到的指令会占多少百分比？解: 对该应用程序来说，在90%的时间里，只有50000*10%=5000条指令在运行，其他的45000条指令的平均运行次数很少，因此，可以假设对它们来说，Cache总是缺失的对频繁访问的这10%的指令，假设它们访问均匀，这样，Cache的行为便可以认为是均匀覆盖了这些指令所以，10的指令承担了90%的指令访问, 指令访问次数(50000*10%)/90%命中次数2000Cache的命中率为：H=2000/(50000*10%)/90%=0.361.17假设高速缓存Cache 工作速度为主存的5倍，且Cache被访问命中的概率为90%，则采用Cache后，能使整个存储系统获得多高的加速比？解：1.18设计指令存储器有两种不同方案：一是采用价格较贵的高速存储器芯片，另一是采用价格便宜的低速存储芯片。采用后一方案时，用同样的经费可使存储器总线带宽加倍，从而每隔2个时钟周期就可取出2条指令（每条指令为单字长32位）；而采用前一方案时，每个时钟周期存储器总线仅取出1条单字长指令。由于访存空间局部性原理，当取出2个指令字时，通常这2个指令字都要使用，但仍有25%的时钟周期中，取出的2个指令字中仅有1个指令字是有用的。试问采用这两种实现方案所构成的存储器带宽为多少？解：方案一：采用高速缓冲存储器，使每个时钟周期存储器总线取出1条指令，则存储器带宽=1字/时钟周期=32位/时钟周期方案二：使存储器总线带宽加倍，从而每隔2个时钟周期就可取出2条指令（每条指令为单字长32位），但仍有25%的时钟周期中，取出的2个指令字中仅有1个指令字是有用的，则1.19用一台40MHz处理机执行标准测试程序，它含的混合指令数和相应所需的时钟周期数如下：指令类型指令数时钟周期数整数运算 45000 1数据传送 32000 2浮点 15000 2控制传送 8000 2求有效CPI、MIPS速率和程序的执行时间。1.20某工作站采用时钟频率为15MHz、处理速率为10MIPS的处理机来执行一个已知混合程序。假定每次存储器存取为1周期延迟、试问：(a) 此计算机的有效CPI是多少？(b) 假定将处理机的时钟提高到30MHz，但存储器子系统速率不变。这样，每次存储器存取需要两个时钟周期。如果30%指令每条只需要一次存储存取，而另外5%每条需要两次存储存取，还假定已知混合程序的指令数不变，并与原工作站兼容，试求改进后的处理机性能。解：(a) f=15MHz , MIPS=10, 每次存取时间为2个时钟周期(b)30%指令每条只需要一次存储存取，改进前共需1周期，改进后共需2周期而另外5%每条需要两次存储存取，改进前共需2周期，改进后共需4周期1.21假设在一台40MHz处理机上运行200000条指令的目标代码，程序主要由四种指令组成。根据程序跟踪实验结果，已知指令混合比和每种指令所需的指令数如下：指令类型 CPI 指令混合比算术和逻辑 1 60%高速缓存命中的加载/存储 2 18%转移 4 12%高速缓存缺失的存储器访问 8 10%(a) 计算在单处理机上用上述跟踪数据运行程序的平均CPI(b) 根据(a)所得CPI，计算相应的MIPS速率。解：(1)(2)1.24假定你是一个计算机设计者，对高级语言结构的使用研究表明，过程调用是最常用的操作之一。你已设想了一个优化设计方案，它能减少过程调用和返回所需的取/存指令次数。为了进行验证，对未加优化和已优化的方案进行实验测试，假定所使用的是相同的优化编译器。实验测得的结果如下：(1)未优化的时钟周期比优化的快5%；(2)未优化方案中的取/存指令数占总指令数的30%；(3)优化方案中的取/存指令数比未优化的少1/3，对于其他指令，两种方案的动态执行数没有变化；(4)所有指令，包括取/存指令，均只需要1个时钟周期。要求你定量地判断，哪一种设计方案的计算机工作速度更快。解：记新方案时钟周期为Tc，已知CPI = CPIi = 1原时间 = CPI IC 0.95Tc = 0.95ICTc新时间 = （0.32/3+0.7） IC Tc = 0.9ICTc二者比较，新时间较短。1.A1某台计算机只有Load/Store 指令能对存储器进行读/写操作，其它指令只对寄存器进行操作。根据程序跟踪实验结果，已知每种指令所占的比例及CPI数如下：指令类型指令所占比例 CPI 算逻指令 43 1 Load指令 21 2 Store指令 12 2 转移指令 24 2 (1) 求上述情况下的平均CPI。(2) 假设程序有M条指令组成。算逻运算中25%的指令的两个操作数中的一个已在寄存器中，另一个必须在算逻指令执行前用Load指令从存储器取到寄存器。因此有人建议增加另一种算逻指令，其特点是一个操作数取自寄存器，另一个操作数取自存储器，即寄存器存储器类型，假设这种指令的CPI等于2。同时，转移指令的CPI变为3。求新指令系统的平均CPI。解：(1)CPI旧(0.4310.2120.122+0.242)=1.57 (2)原算逻指令中的25变成了寄存器存储器型指令，所以算逻指令(寄存器寄存器型)少了(0.250.43)M 条，Load指令少了(0.250.43)M 条，而(0.250.43)M 条的新指令为寄存器存储器型指令。指令总数少了(0.2543%)M条。设执行算逻指令(寄存器寄存器型) 、 Load指令、算逻指令(寄存器存储器型) 、 Store指令和转移指令的周期总数分别为C1，C2，C3，C4，C5，所以:C1=(0.43-(0.250.43)M1=0.3225MC2=(0.21-(0.250.43)M2=0.205MC3=(0.250.43)M2=0.215MC4=0.12M2=0.24MC5=0.243M=0.72M新指令总数N=（1-(0.250.43)）M=0.892CPI新=（C1+C2+C3+C4+C5）/ N=1.7025M/0.8925M=1.9081.A2计算机系统中有三个部件可以改进，这三个部件的部件加速比如下：部件加速比1=30部件加速比2=20部件加速比3=10（1）如果部件1和部件2的可改进比例均为30%，那么当部件3的可改进比例为多少时，系统加速比才可以达到10？（2）如果三个部件的可改进比例分别为30%、30%和20%，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？（3）如果相对某个测试程序三个部件的可改进比例分别为20%，20%和70%，要达到最好改进效果，仅对一个部件改进时，要选择哪个部件？如果允许改进两个部件，又如何选择？1.A3在某个程序中，简单指令占80%，复杂指令占20%，在CISC机中简单指令执行需4个机器周期，复杂指令执行需8个机器周期。RISC机中简单指令执行只需1个机器周期，而复杂指令要通过一串指令来实现。假定复杂指令平均需要14条简单指令，即需要14个周期，若该程序中需要执行的总指令数为1 000 000，Tc为100ns，那么（1）RISC机需执行的指令数为多少？（2）CISC和RISC机的CPU时间分别为多少？（3）RISC机对CISC的加速比为多少？2.2 第二章(P124)2.3忽略P124倒1行 P125第8行文字，以简化题意）已知2种浮点数，求性能指标。此题关键是分析阶码、尾数各自的最大值、最小值。原图为数据在内存中的格式，阶码的小数点在其右端，尾数的小数点在其左端，遵守规格化要求。由于尾数均为原码，原码的绝对值与符号位无关，所以最大正数与最小负数的绝对值相同，可用“最大绝对值”回答；最小正数与最大负数的绝对值相同，可用“最小绝对值”回答。第1小问中，阶码全部位数为8，作无符号数看待真值为0255，作移-127码看待真值为-127+128；尾数（不计符号位）有23位小数，另加1位整数隐藏位，所以尾数绝对值为1.02.0 2-23，有效位数p=24；第2小问中，阶码全部位数为11，作无符号数看待真值为02047，作移-1023码看待真值为-1023+1024；尾数（不计符号位）有52位小数，另加1位整数隐藏位，所以尾数绝对值为1.02.0 2-52，有效位数p=53。最大绝对值为最大阶码与最大尾数绝对值的组合，最小绝对值为最小阶码与最小尾数绝对值的组合。代入相关公式后得最终结果如下表。32位64位最大绝对值(1-2-24)2129(1-2-53)21025最小绝对值2-1272-1023表数精度2-242-53表数效率100%100%2.5(1) rm = 2，re = 2，p = 24（隐藏最高位）,q = 7。(2) Nmax = 1.71038，-|N|min = -1.4710-39 5.9610-8 10-7.22， = 100%2.61位7位6位00111111333333(1) 0.2 = 0.333333H160 设阶码为移-63码（即-26+1，原题未指明）0.2 = 0.110011001100110011001101B2-2 1位8位23位00111110110011001100110011001101（其中最高有效位需隐藏）阶码为移-127码（即-27+1）(2) 符号位不变，（阶码 63）4 + 127；尾数左规，除去最高位；(3) 符号位不变，（阶码 127）/ 4 + 63；尾数补最高位，按除法余数右移若干位，左补0。2.13已知10条指令使用频度，求3种编码方法的平均码长与信息冗余量。(1)此问中的“最优Huffman编码法”实际是指码长下限，即信源的平均信息量熵，代公式得H=2.9566。(2)Huffman编码性能如下表；(3)2/8扩展编码是8/64/512法的变种，第一组2条指令，码长为2（1位扩展标志，1位编码）,第二组8条指令，码长为4（1位扩展标志，与第一组区别，加3位编码），编码性能如下表；(4)3/7扩展编码是15/15/15法的变种，第一组3条指令，码长为2（共有4种组合，其中3种组合分别代表3条指令，留1种组合作为扩展前缀标志）,第二组7条指令，码长为5（2位固定的前缀扩展标志，与第一组区别，加3位编码，只用其中7种组合），编码性能如下表。Huffman编码2/8扩展编码3/7扩展编码平均码长L2.993.13.2信息冗余量R1.10%4.61%7.59%2.14一台模型机共有7条指令，各指令的使用频率分别为35%，25%，20%，10%，5%，3%和2%，有8个通用数据寄存器，2个变址寄存器。(1)要求操作码的平均长度最短，请设计操作码的编码，并计算所设计操作码的平均长度。(2)设计8字长的寄存器-寄存器型指令3条，16位字长的寄存器-存储器型变址寻址方式指令4条，变址范围不小于127。请设计指令格式，并给出各字段的长度和操作码的编码。解：(1)要使得到的操作码长度最短，应采用Huffman编码，构造Huffman树如下：由此可以得到7条指令的编码分别如下：这样，采用Huffman编码法得到的操作码的平均长度为：H = 2(0.35+0.25+0.20) + 30.10 + 4 0.05 + 5(0.03 + 0.02) = 1.6+0.3+0.2+0.25 =2.35(2)设计8位字长的寄存器-寄存器型变址寻址方式指令如下，因为只有8个通用寄存器，所以寄存器地址需3位，操作码只有两位，设计格式如下：三条指令的操作码分别为00，01，10设计16位字长的寄存器-存储器型变址寻址方式指令如下：四条指令的操作码分别为1100，1101，1110，11112.15某处理机的指令字长为16位，有双地址指令、单地址指令和零地址指令三类，并假设每个地址字段的长度均为6位。(1)如果双地址指令有15条，单地址指令和零地址指令的条数基本相同，问单地址指令和零地址指令各有多少条？并且为这三类指令分配操作码。(2)如果要求三类指令的比例大致为1：9：9，问双地址指令、单地址指令和零地址指令各有多少条？并且为这三类指令分配操作码。解：(1) 15条/63条/64条(2) 14条/126条/128条(1)根据指令地址的数量来决定各种指令在指令空间上的分布：如果我们按照从小到大的顺序分配操作码，这样，按照指令数值从小到大的顺序，分别为双地址指令、单地址指令和零地址指令。其次可以根据指令的条数来大致的估计操作码的长度：双指令15条，需要4位操作码来区分，剩下的12位操作码平均分给单地址和零地址指令，每种指令可以用6位操作码来区分，这样，各指令的条数为：双地址指令15条，操作码：00001110；单地址指令26-1=63条，操作码：1111 0000001111 111110；零地址指令64条，操作码：1111 111111 0000001111 111111 111111。 (2)与上面的分析相同，可以得出答案：双地址指令14条，操作码：00001101；单地址指令26 x 2-2 = 126条，1110 0000001110 111110，1111 0000001111 111110；零地址指令128条1110 111111 0000001110 111111 111111,1111 111111 0000001111 111111 111111(2)B双地址指令同上,14条，操作码：00001101；单地址指令64 + 62 = 126条，64 条单地址指令操作码1110 0000001110 111111，62 条单地址指令操作码1111 0000001111 111101；零地址指令128条1111 111110 0000001110 111110 111111,1111 111111 0000001111 111111 1111112.3 第三章(P202)例3.1假设T25T1，在命中率H为0.9和0.99两种情况下，分别计算存储系统的访问效率。解：当H0.9时，e11(0.95(10.9)0.72当H0.99时，e21(0.995(10.99)0.96 提高存储系统速度的两条途径：一是提高命中率H二是两个存储器的速度不要相差太大其中：第二条有时做不到(如虚拟存储器)，因此，主要依靠提高命中率例3.2在虚拟存储系统中，两级存储器的速度相差特别悬殊T2105 T。如果要使访问效率e0.9，问需要有多高的命中率？解： 0.9H90000(1H)1 89999.1H89999 计算得H0.9999988888777770.999999例3.3在一个Cache存储系统中，当Cache的块大小为一个字时，命中率为H0.8；假设数据的重复利用率为5，计算Cache的块大小为4个字时，Cache存储系统的命中率是多少？假设T2T，分别计算访问效率。解：n4520，采用预取技术之后，命中率提高到：Cache的块大小为一个字时，H0.8，访问效率为：e11(0.85(10.8)0.55Cache的块大小为4个字时，H0.99，访问效率为：e21(0.995(10.99)0.96例3.4在一个虚拟存储系统中，T2105 T，原来的命中率只有0.8，现采用预取技术，访问磁盘存储器的数据块大小为4K字，如果要求访问效率不低于0.9，计算数据在主存储器中的重复利用率至少为多少？解：假设数据在主存储器中的重复利用率为m，根据前面的给出关系：解这个方程组，得到m44，即数据在主存储器中的重复利用率至少为44次。例3.6Star-100巨型机存储系统采用并行和交叉相结合的方式工作，有32个存储体低位交叉，每次并行读写512位，存储周期为1.28um(磁心存储器)，处理机字长32位，计算它的频带宽度Bm和峰值速度T。解：因为：n32，w512，Tm1280ns， Bmn w/tm32512b/1280ns 12.8Gb/s 1.6GB/s 400MW/s T2.5ns，与Tm相比，峰值速度提高512倍。例3.8一个程序共有5个页面组成，分别为P1P5。程序执行过程中的页地址流（即程序执行中依次用到的页面）如下：P1，P2，P1，P5，P5，P1，P3，P4，P3，P4假设分配给这个程序的主存储器共有3个页面。给出FIFO、LRU和OPT三种页面替换算法对这3页主存的使用情况，包括调入、替换和命中等。时间t12345678910实际页地址流P1P2P1P5P4P1P3P4P2P4命中次数1111*444*4*22先进先出算法2222*1111*4（FIFO算法）555*3333*调入调入命中调入替换替换替换命中替换替换2次11111111*22最久没有使用算法222*444*444（LRU算法）55*5*333*3*调入调入命中调入替换命中替换命中替换命中4次111111*3*3*33最优替换算法2222*22222（OPT算法）5*444444调入调入命中调入替换命中替换命中命中命中5次三种页面替换算法对同一个页地址流的调度过程例3.9一个循环程序，依次使用P1，P2，P3，P4四个页面，分配给这个程序的主存页面数为3个。FIFO、LRU和OPT三种页面替换算法对主存页面的调度情况如下图所示。在FIFO和LRU算法中，总是发生下次就要使用的页面本次被替换出去的情况，这就是“颠簸”现象。时间t12345678实际页地址流P1P2P3P4P1P2P3P4命中次数111*444*33先进先出算法222*111*4（FIFO算法）333*222*调入调入调入替换替换替换替换替换0次111*444*33最久没有使用算法222*111*4（LRU算法）333*222*调入调入调入替换替换替换替换替换0次11111*111最优替换算法22222*3*3（OPT算法）3*4*4444*调入调入调入替换命中命中替换命中3次页面调度中的颠簸现象3.1由三个访问速度、存储容量和每位价格都不相同的存储器构成一个存储体系。其中，M1靠近CPU，回答下列问题： M1(T1,S1,C1) M2(T2,S2,C2) M3(T3,S3,C3)（1）写出这个三级存储体系的等效访问时间T，等效存储容量S和等效每位价格C的表达式。（2）在什么条件下，整个存储体系的每位价格接近于C3？3.3直接代公式计算存储层次性能指标。(1)74ns，38ns，23.6ns(2)0.258，0.315，0.424(3)T256K T128K c128K c64K(4)19.092，11.97，10.0064。答案是256K方案最优。3.5已知，其中g=0.1依题意有整理得0.9n0.2，解出，向下取整，得15；按另一种题意理解是向上取整，得16，也对。3.7方式1：16个模块高位交叉方式2：16个模块并行访问方式3：16个模块低位交叉方式4：2路高位交叉8路低位交叉16个存储模块每8个组成一个大的模块：方式5：4路高位交叉4路低位交叉16个存储模块每4个组成一个大的模块：方式6：4路并行访问4路低位交叉（1）这几种存储器都能够并行工作，因此可以提高频带宽度。总的来说，并行访问存储器的优点是实现简单、容易，缺点是访问冲突大；高位交叉访问存储器的优点是扩充方便，缺点是访问效率不高；低位交叉访问存储器可以用分时的方法来提高速度，但扩充不方便。（2）各种存储器的频带宽度和他们的工作频率有关，在不考虑冲突的情况下，如果有足够多的独立控制电路和寄存器，那么，他们的频带宽度是相同的。（3）存储器的逻辑示意图略。注意，并行访问存储器和低位交叉访问存储器很相象，只不过，并行访问存储器使用存储模块号（存储体号）来对已经输出的结果进行选择，而低位交叉访问存储器则用来生成对存储模块（存储体）的片选信号，他通过流水的方式来提高访问的速度。3.14在页式虚拟存储器中，一个程序由P1P5共5个虚页组成。在程序执行过程中依次访问到的页面如下： P2 ，P3，P2，P1 ，P5 ，P2 ，P4 ，P5 ，P3 ，P2 ，P5 ，P2 假设系统分配给这个程序的主存有3个页面，分别采用FIFO、LRU和OPT三种替换算法对这三页主存进行调度。（1）画出主存页面调入、替换和命中的情况表。（2）统计三种页面替换算法的页命中率。3.15（1）在分配的主存页面数目大于等于5的情况下，这时，除了第一次调入不命中，以后的访问均命中，可以达到最高的页面命中率：实际命中的次数为7次，所以可能达到的最高页面命中率为：（2）由于在页面数大于等于5的情况下，肯定可以达到最高命中率，所以我们来看页面数小于5时能否达到该命中率：分配的主存页面数等于4时，调度过程如下： LFU算法44444*11111*11命中7次555*55555*5553333*33*333*32222*22222调入调入调入调入命中调入命中命中命中命中命中命中此时也可以达到最高命中率；分配的主存页面等于3时，调度过程如下： LFU算法444*222*33*333*3命中3次555*555*222*11333*1111*555调入调入调入调入命中调入调入调入命中调入调入命中此时不能达到最高命中率。所以至少应该分配4个主存页面。（3) 我们假设程序每次只访问一个存储单元，这样，对每一个特定页面的访问过程可以描述如下：因为第一次总是不命中的，而平均起来，随后的1023次总是命中的，然后再次被调出主存，并再次重复先前的过程。所以访问存储单元的命中率为：欲知可能的最高命中率及所需的最少主存页数，较好的办法是通过“堆栈模拟法”，求得命中次数随主存页数变化的函数关系。下图就是“堆栈模拟图”，其中“”表示命中。P=453251323513命中次数4532513235134532513235145325112354432551224444444n=10n=21n=33n=47n=57(1)Hmax=7/1258.3%(2)n=4(3)当1次页面访问代表连续1024次该页内存储单元访问时，后1023次单元访问肯定是命中的，而第1次单元访问的命中情况与这1次页面访问的命中情况相同。根据上图中最高命中情况，共有7次页命中（折算为71024次单元命中），5次页不命中（折算为51023次单元命中，也可写为51024-5），单元访问总次数为121024，故有：Hcell=(121024-5)/(121024)=12283/1228899.96%3.15A加1题一个二级存储层次，采用全相联映象和最久没有使用算法，实存共5页，为2道程序分享，页地址流分别如下P1 = 1 2 3 4 1 3 2 1P2 = 1 2 3 4 2 2 3 3试作2个实存分配方案，分别使2道程序满足(1)命中率相同；(2)命中次数之和最大。P1 =12341321命中次数N(1)12341321123413212341312244n1= 10n1= 20n1= 32n1= 44解：分别为2道程序作“堆栈模拟图”，其中“”表示命中。P2 =12342233命中次数N(2)12342233123442212334411111n2= 12n2= 22n2= 34n2= 4465 N(1)+N(2)432 N(1) N(2)1 1+4 2+3 3+2 4+1将两图结果综合，得到4个分配方案的命中率情况表如下n11234N(1)0024n24321N(2)4422N(1)+N(2)4446结论如下(1)命中率相同的方案是n1= 3而n2= 2；(2)命中次数之和最大的方案是n1= 4而n2= 1。3.19（1）主存共有2个区，每个区2组，每个组2块，每块16个字节，如果按字节寻址，那么主存需要7位，如下图所示：（2）Cache地址需要6位，如下图所示：中(3)(4)(6)(8)问虚存实页0123虚组0 00 1 实存1虚组1 20 实组02 31虚3虚组2 42 实组1页4 535虚组3 66 77(a) 虚页集合与实页集合的对应关系 (b) 对应关系表（为有关系）(3)(4)通过作“实存状况图”模拟各虚块的调度情况，可获得Cache的块地址流序列。P=624146304573C044*4444*44*4*4*C111*1*1*00*555C266*6*6*6*66*6*6*6*77*C322222*33333*3入入入入中中替替中替替中C=230102310123此问最容易出错的地方是忽略“组相联”地址约束，将虚页装错实组。另外没有及时标注“*”号也容易导致淘汰对象错误。(6)H=4/1233%(8)做法同3.15题(3)问，Hcell=(1216-8)/(1216)95.8%2.4 第四章(P250)4.5已知中断服务次序为3-2-4-1，。(1)中断屏蔽字表如下图；D1D2D3D4D10111D20010D30000D40110(2)中断过程示意图如右图。时间中断请求主程序1级 2级 3级 4级 D1，D2 D3，D44.8(1)f=2105字节/秒，T=5us(2)Ts+Td=5us，通道时间图如下。作图时注意：至少要画到最慢设备的第二次请求出现，才能确定是否丢失数据（因为响应优先级低的设备较易丢失数据）。设优备先号级D1 1D2 4D3 2D4 3时间(us) 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170(3)5，160，20，40；(4)D2丢失第一次请求的数据；(5)参见P245。2.5 第五章(P343)例5.1一个采用先行控制方式的处理机，指令分析器分析一条指令用一个周期，到主存储器中取一条指令装入先行指令缓冲栈平均要用4个周期。如果这种指令的

展开阅读全文