第6讲TS201简介

上传人:e****s 文档编号:243695035 上传时间:2024-09-29 格式:PPT 页数:80 大小:1.23MB
返回 下载 相关 举报
第6讲TS201简介_第1页
第1页 / 共80页
第6讲TS201简介_第2页
第2页 / 共80页
第6讲TS201简介_第3页
第3页 / 共80页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,TigerSHARC TS201 Overview,第6讲:,ADSP TS-201简介,电子工程学院信息对抗系,冯小平,1,6.1 TS20X 概述,2,TigerSHARC,ADI公司推出三种新一代处理器,ADSP-TS201,ADSP-TS202,ADSP-TS203,业界领先的性能密度适合要求最严格的信号处理应用,3,三种引脚兼容 25 x 25 mm BGA 封装产品,ASDP-TS201,500/600 MHz时钟速率,24 Mbits 片内存储器,通信逻辑单元(CLU),4个链路口; 平均吞吐率 4 Gbps,ASDP-TS202,500 MHz时钟速率,12 Mbits片内存储器,不包括CLU,4个链路口;平均吞吐率 4 Gbps,ASDP-TS203,500 MHz时钟速率,4 Mbits片内存储器,不包括CLU,2个链路口;平均吞吐率 1Gbps,TS201/TS202/TS203 三种产品的差异,4,TS20X,框图,M0,M1,M5,定序器,128b,J ALU,128b,128b,K ALU,128b,Comp block X,ALU,Mult,Shift,I/O,处理器,DMA,控制器,2 Computation blocks X and Y,Comp block Y,ALU,Mult,Shift,128b,寄存器文件,寄存器文件,LVDS,链路口,簇总线,TS201/TS202: 1Gbps,宽带,I/O,无缝多处理,TS201提供通信逻辑单元,( CLU)专用指令,TS201: 24Mbit,TS202: 12Mbit,TS203: 4Mbit,TS201: 4Gbps,TS202: 4Gbps,TS203: 1 Gbps,4条,128 bit总线支持,宽内部带宽,无冲突数据,传输,5,主要处理器部件,两个运算块 X和Y,每个都包含三个计算单元和寄存器文件:,ALU, 乘法器, 移位器,32个存储器映射的数据寄存器,CLU:相关逻辑运算单元(Correlation Logic Unit),32 Data Registers dedicated to CLU,每个运算块都可以同时在任意两个计算单元中执行指令,两个-ALU (IALU),地址发生器,简单的算术和逻辑操作,有4组128位寬总线访问6个存储块,6,ALU,操作数类型,octal byte instruction.,normal or dual word instruction.,63,0,Octal 8 bit operand,Rml,Octal 8 bit operand,Octal ALU,Octal 8 result,Rnl,63,0,63,0,32 bit operand,Rml,32 bit operand,Rs,+1,Rnl,63,0,32 ALU,32 ALU,32 bit operand,32 bit operand,Rs,short word instruction.,long word instruction.,63,0,quad 16 bit operand,Rml,quad 16 bit operand,quad ALU with sat,quad 8/16/32 bit result,Rnl,63,0,sRsl,with sat,63,0,64 bit operand,Rm,64 bit operand,ALU,64 bit result,Rn,63,0,Rsl,7,MAC操作数类型,32-bit word inst.,16-bit short word inst.,Single Precision Flt.,Extended Precision Flt.,31,0,32 operand,Rm,31,0,exp (8),mantissa (24),32-bit result,24 x 24 MULT,63,0,Rml,quad 16 operand,quad 16/32 result,Rnl,63,0,Rsl,63,0,exp (8),32 x 32 MULT,64 result,Rsl,32 x 32 MULT,32 operand,Rm,32 or 64 result,Rsl,dual accu (64 or 80),MR4:0,16 x 16 MULT,16 x 16 MULT,16 x 16 MULT,16 x 16 MULT,quad accu (16 or 32 or 40),MR4:0,exp (8),mantissa (24),adder,exp (8),mantissa (24),Fml,mantissa (32),Fnl,mantissa (32),exp (8),40-bit result,adder,16-bit complex word inst.,31,0,imag1,63,0,16 x 16 MULT,16 x 16 MULT,16 x 16 MULT,16 x 16 MULT,quad accu (16 or 32),MR3:0,real 1,imag 1,real 1,- / +,+ / -,quad 16 operand,8,128b,ALU,Proc El X,RF,0,31,ALU,Mult,Shift,处理器的核-运算块 特点,两周期运算流水內单周期操作,硬件独立捡测,每个运算块都可完成下列运算的两个,ALU,乘法器,移位器,Note: 2 x 128 input 1 x 128 output,9,TigerSHARC DMA 控制器,DMA Controller,INTERNAL,BUS,Data,Address,Control,128-bit DATA,32-bit ADDR,I/O Processor,DMAR,IFIFO,OFIFO,OBUF,Bus Interface Unit,Link Interface Unit,LP0 I/O Buffers,LP1 I/O Buffers,LP2 I/O Buffers,LP3 I/O Buffers,Link,Ports,SOC Bus,Interface,K,BUS,J,BUS,I-BUS,S-BUS,10,I/O处理器的特点,64位并行外部总线,接口,主机接口,多处理器接口,存储器接口 (SRAM, SDRAM, EPROM),通信协议,流水,慢速器件,SDRAM,4 个4位 寬LVDS DDR 链路口,专用的收发部件,在时钟边沿两次锁存数据,DMA 控制器,11,多处理应用,无线基础设施,G 基站,3G 基站,固定宽带无线,医用图像处理,超声图像处理,CT 扫描仪,核磁共振成像(MRI),航天,雷达,通信,国土安全,生物测定,行李扫描仪,商业航空安全检查,工业,图像处理与控制,仪器仪表,测试与测量,12,片内eDRAM的优势,:,性能, 功耗 - 可靠性,性能,利用片内存储器能够达到比外部存储器系统更宽的带宽,内核,存储器 24Mbit,I/O,128,128,128,128,38.4 Gbps 带宽,TS201,600Mhz,PPC G4,64,133 MHz,SDRAM,存储器,1.0 Gbps 外部带宽,功耗,eDRAM,的单元漏电流实际上为零,可靠性,eDRAM,的软件误差率远低于,SRAM,微米工艺,SRAM,的,FIT/,Mbit,为,100,000,eDRAM,的,FIT/64Mbit,为,500,1,FIT,(,计次失效率)约为,万年发生一次失效,13,TigerSHARC与TIC6000性能比较,表征系统性能的 三项关键指标 :处理能力、片内存储器和 I/O带宽,处理能力,TigerSHARC,TI C6416,2880 MMAC,4800 MMAC,片内存储器,TigerSHARC,TI C6416,8 MBIT,24 MBIT,I/O 带宽,TigerSHARC,TI C6416,1.99 Gbpss,5 Gbps,14,6.2,ADSP-TS201 与TS101比较,15,TS201,的主要改进,内核能力增强,内部单元,/,总线系统,存储器及存储器组织,Cache,XCORR,(,互相关),外部接口,时钟发送能力,LVDS,链路口,物理变化,AC / DC,电平和性能,功耗考虑,16,TS201功能框图,M0,M1,M5,程序控制器,128b,J ALU,128b,128b,K ALU,128b,Comp block X,ALU,Mult,Shift,I/O,处理器,DMA,控制器,Comp block Y,ALU,Mult,Shift,128b,寄存器文件,寄存器文件,LVDS,链路口,程序控制器,2个 IALU,4套内部总线,内部储存器:6块,两个计算模块,17,TS101功能框图,M0,M1,M2,Sequencer,128-entry,BTB,128b,J-RF,J ALU,0,31,128b,128b,K-RF,K ALU,0,31,128b,Proc El Y,RF,0,31,ALU,Mult,Shift,ALU,Proc El X,RF,0,31,ALU,Mult,Shift,External,Port,DMA,Peripherals,两个计算模块,程序控制器,内部储存器:3块,3套内部总线,2个 IALU,18,TS101原理框图,19,TS201原理框图,20,ADSP-TS201,内核结构,21,TS201 ,结构图,扩展的内核,TigerSHARC,内核,程序控制器, 2,个,IALUs, 2,个运算模块, Debug,块,中断控制器,SOC,接口,24Mbit EDRAM (6,块,每块,4MBit),4 x 128b,专用内部总线,I-Bus, J-Bus, K-Bus, S-Bus,SOC,外部总线簇接口,链路口,DMA,JTAG,1 x 128b SOC,总线,22,程序控制器,功能块,保护的流水处理器,互锁机理,程序流,预取地址产生,分支预测,(BTB),中断处理,指令队列,(IAB),专门的,HW,循环计数器,TS101,到,TS201,的变化,流水级,补充了2级流水,23,程序控制器,流水级,TS201,增加了2级流水级,Fetch 2 -,较长的存储器访问,(fetch),Pre Decode -,使,IAB,和指令译码时间更多,修改了分支流水级,Fetch 1,Fetch 2,Fetch 3,Integer,Decode,Execute1,Operand,Execute2,Fetch 1,Fetch 3,Fetch 4,Integer,Decode,Operand,Execute1,Execute2,Hit/Miss,check,BTB miss and,branch taken,Jump decision,IALU & LC,Jump decision,COMPUTE,Hit/Miss,check,BTB miss and branch taken,Jump decision,IALU & LC,Jump decision,COMPUTE,PreDecode,Fetch 2,TS101,TS201:,24,N,o,p,e,n,a,l,t,y,B,r,a,n,c,h,P,r,e,d,i,c,t,i,o,n,s,e,t,?,B,r,a,n,c,h,t,a,k,e,n,?,E,n,t,r,y,i,n,B,T,B,?,B,r,a,n,c,h,t,a,k,e,n,?,B,r,a,n,c,h,t,a,k,e,n,?,N,o,Y,e,s,Y,e,s,Y,e,s,Y,e,s,N,o,N,o,N,o,6,-,3,c,y,c,l,e,p,e,n,a,l,t,y,N,o,p,e,n,a,l,t,y,2,c,y,c,l,e,p,e,n,a,l,t,y,6,-,3,c,y,c,l,e,p,e,n,a,l,t,y,6,-,3,c,y,c,l,e,p,e,n,a,l,t,y,Y,e,s,N,o,* IALU 条件招致 3 cycles,* 计算块条件招致 6 cycles,以下情况下插入1个 cycle:,1. 跳转时,指令行跨越字边界,2. 预测可能有分支但没有出现,指令行跨越4字边界,程序控制器,分支流水(,TS101),25,程序控制器,分支流水(,TS201),N,o,p,e,n,a,l,t,y,B,r,a,n,c,h,P,r,e,d,i,c,t,i,o,n,s,e,t,?,B,r,a,n,c,h,t,a,k,e,n,?,E,n,t,r,y,i,n,B,T,B,?,B,r,a,n,c,h,t,a,k,e,n,?,B,r,a,n,c,h,t,a,k,e,n,?,N,o,Y,e,s,Y,e,s,Y,e,s,Y,e,s,N,o,N,o,N,o,9,-,5,c,y,c,l,e,p,e,n,a,l,t,y,N,o,p,e,n,a,l,t,y,4,c,y,c,l,e,p,e,n,a,l,t,y,9,-,5,c,y,c,l,e,p,e,n,a,l,t,y,9,-,5,c,y,c,l,e,p,e,n,a,l,t,y,Y,e,s,N,o,* IALU 条件招致,5,stalls,* 计算块条件招致,9,stalls,以下情况下插入1个 cycle:,1. 跳转时,指令行跨越字边界,2. 预测可能有分支但没有出现,指令行跨越4字边界,26,存储器和,Cache,27,TS201的存储器,M0,M2,M10,Sequencer,128b,J ALU,128b,128b,K ALU,128b,Comp block X,ALU,Mult,Shift,I/O,Processor,DMA,Controller,2 Computation blocks X and Y,Comp block Y,ALU,Mult,Shift,128b,Register file,Register file,Link Ports,External Bus,28,TS101的存储器,存储器,M0,M1,M2,Sequencer,128b,J ALU,128b,128b,K ALU,128b,Comp block X,I/O,Processor,Comp block Y,128b,Link Ports,External Bus,29,TS201和TS101存储器比较,TS101,TS201,内部存储器块,3个,每个64K 32位,6个,每个128K 32位,内部数据总线,3个内部128位,4个内部128位,单周期传输操作,3个128位的传输操作 : 2个数据,1个指令,4个128位的传输操作:2个数据,1个指令,1 个SOC 并发的传输,I/O处理器,一次仅能使用一次内部总线,一次仅能使用一次内部总线,指令和数据,可交替存储,可交替地存储,访问限制,每个周期每个存储器块访问一次,每个周期每个存储器块访问一次,30,TS201,存储单元,描述,(I),嵌入式,DRAM,SRAM,DSP,中的嵌入式存储器,较高的容量,(=,较小的体积,),在通信算法中需要大的片内存储器,访问时间可变,低的峰值电流,存储器组织,高达,24 Mbit EDRAM,6,个独立的存储器块,每块,4 Mbit,内核的,4,套总线可以访问任何存储器块,最大带宽,: 4 * 128b 500 MHz = 32GByte/s,31,TS201,存储单元,描述,(II),每个存储块,互通,(,Crossbar,),选择块,总线裁决,FIFOs,缓冲,EDRAM,访问,Cache,数据访问,CACHE,Hit / Miss,逻辑,Cache,数据存储,EDRAM,4 Mbit EDRAM,控制,32,TS201,存储单元,简化框图,I-bus,J-bus,K-bus,S-bus,Segment 0,Segment 2,Segment 10,CROSSBAR,Data out,Data in,Memory,acknowledge,Address & control,Embedded DRAM,Cache,FIFOs,33,TS201,存储单元,存储块框图,34,TS201,存储器外部空间,0x3000 0000,-,/MS0,0x3800 0000,-,/MS1,0x4000 0000,- /,MSSD,0 SDRAM,0x4400 0000 reserved,0x5000 0000,- /,MSSD1,SDRAM,0x5400 0000 - reserved,0x6000 0000,- /,MSSD2,SDRAM,0x5400 0000 - reserved,0x7000 0000,-,MSSD3,SDRAM,0x5400 0000 - reserved,0x8000 0000,- /MSH,host 地址空间,Internal memory,MMS,/MS0,/MS1,/MSSD0,/MSSD1,/MSSD2,/MSSD3,/MSH,35,TS201,存储器多处理器空间,0,x0,C00 0000,多处理器广播,0X1000 0000,TS201,#0,总线簇,0X1400 0000,TS201,#1,总线簇,0X1800 0000,TS201,#2,总线簇,0X1C00 0000,TS201,#3,总线簇,0X2000 0000,TS201,#4,总线簇,0X2400 0000,TS201,#5,总线簇,0X2800 0000,TS201,#6,总线簇,0X2C00 0000,TS201,#7,总线簇,Internal memory,broadcast space,TS201- ID0,TS201- ID1,TS201- ID2,TS201- ID3,TS201- ID4,TS201- ID5,TS201- ID6,TS201- ID7,36,TS201,存储器内部空间,0,x000000 EDRAM,0x,0,40000,- EDRAM,0x060000 reserved,0x,0,80000,- EDRAM,0x0a0000 reserved,0x,0c,0000,- EDRAM,0x0e0000 reserved,0x100000,- EDRAM,0x120000 reserved,0x140000,- EDRAM,0x160000,reserved,BLOCK 0,BLOCK 4,BLOCK 6,BLOCK 8,BLOCK 10,BLOCK 2,37,TS201,存储器块内部结构,0,x00000,0x,1,0000,Half-Segment 0,of,Segment 0,Half-Segment 1,of,Segment 0,0,x00000,0x00040,0x00080,0x000C0,0x0FF80,0x0FFC0,Page 0 Sub-Array 0,Page 0 Sub-Array 1,Page 1 Sub-Array 0,Page 1 Sub-Array 1,Page 511 Sub-Array 0,Page 511 Sub-Array 1,0,x10000,0x10040,0x10080,0x100C0,0x1FF80,0x1FFC0,Page 0 Sub-Array 2,Page 0 Sub-Array 3,Page 1 Sub-Array 2,Page 1 Sub-Array 3,Page 511 Sub-Array 2,Page 511 Sub-Array 3,38,存储器子系统段的访问,在EDRAM中的数据可以访问前,数据应该在缓冲区内,即页已经,打开(,opened,),打开一个新的页时,总是现关闭当前已经打开的页,因此在两个页之间交替的代价是昂贵的,预加载:,存储时从页缓冲区到,EDRAM,整页操作,激活,:读入时从,EDRAM,页到缓冲区整页操作,每个子阵列都拥有自己的页缓冲区,因此:,当新页与旧页在不同的子阵列中时,打开新页不需要关闭旧页,如果顺序访问,在访问之前下一页会自动打开,预取总有,2,个周期的推后(页已经打开),当顺序访问时,在访问之前需要预预取数据(,pre-fetches data ),按照后两点,顺序访问不一定全会插入stalls。两个半块允许同时使用两个顺序缓冲区,且无STALLS,此时cache是不独立的。,39,存储器,EDRAM,定时,(Stall,汇总,),EDRAM,的随机访问,访问子阵列的其它页,(,必须保存已打开的页面,),访问其它子阵列,(,打开的页面不需要保存,先访问子阵列,),访问没有预取的同一页的其它字,(,随机访问,),同步,预加载,激活,读,TOTAL,1-2 stalls,2 stalls,2 stalls,2 stalls,7-8 stalls,1-2 stalls,2 stalls,2 stalls,0-2 stalls,5-6 stalls,2 stalls,2-4 stalls,-,-,-,40,存储器访问-内部,有效的存储器访问方法:,广播写 - (参看外部存储器访问),交叉传输访问,合并分配,广播分配,注意: 在广播写中, 一个TigerSHARC写到其它几个TigerSHARCs 中。,在合并分配中一条指令访问两个计算块。,在广播分配中一条指令给两个计算块加载相同的数据。,41,合并分配,(I),在合并分配中一条指令访问两个计算块。,合并分开从在两个计算块的存储器中加载的数据。,数据传输的大小决定数据是如何分开的。,指令语法决定数据的分配,正常的,按照 x y次序分配,反序前缀(y x) 反序分配的次序,42,长字访问,长字访问 (反转),xyR1 = LJ0 += 2;,LJ0 += 2 = xyR1,;,yxR1 = LJ0 += 2;,LJ0 += 2 = yxR1,word2,word1,CBX,CBY,word2,word1,CBX,CBY,合并分配,(II),43,四字访问,四字访问 (反转),xyR3:2 = qJ0 += 4;,qJ0 += 4 = xyR3:2;,CBX,CBY,word3,word2,word0,word1,word3,word2,word1,word0,yxR3:2 = qJ0 += 4;,qJ0 += 4 = yxR3:2;,CBX,CBY,word3,word2,word0,word1,word3,word2,word1,word0,合并分配,(III),44,word2,word3,word1,word0,word2,word3,word1,word0,word2,word3,word1,word0,CBX,CBY,广播分配,在广播分配中一条指令把相同的数据加载到两个计算块中。,正常字,长字,四字访问的操作,例子:,R11:8 = qJ0 += 4;,45,广播写,广播写与广播分配不同。,在相同的TigerSHARC中,广播分配把相同的数据分配到两个计算块中,而,广播写把相同的数据分配到几个TigerSHARC中。,广播写通过一个TigerSHARC写广播存储器空间来完成。,例子: 当几个TigerSHARC需要在相同的数据流中进行相同的算术运算时,广播写用于有效地把数据分配到所有的处理器中。,46,0,6,2,C,8,4,E,A,quad-word aligned,long-word aligned,normal-word aligned,32 bits,32 bits,32 bits,32 bits,数据大小和对齐,数据在存储器中以正常字、长字、或四字为边界对齐,正常字 = 32位 (e.g. xR1 ),长字 = 64 位 (e.g. xR3:2 ),四字 = 128位 (e.g. xR7:4 ),47,0 1 2 3 4 5 6.50 51 52 53 54 55 56 57,50 values,50 values,50 values,50 values,数据对齐 - 应用举例,有时会遇到数据不对齐的情况,一般的运算法则都需要知道运算的类型。,一个内部循环:,把循环缓冲区中的50个连续的值加载到计算块中。,执行一次MAC 存储一个值,外循环增加起始位置并重复,48,J L registers,J L 0,J L 1,J L 3,J B 0,J B 1,J B 2,J B 3,J 0,J 1,J 2,J 3,J L 2,J index registers,JB registers,DAB 访问,(I),DAB 访问指令 用来访问存储器中未对齐的四字。,限制计算块中四字的加载。,不支持合并的加载和存储器存储。,DAB 总是在一个循环缓冲寄存器组中访问,在执行 DAB指令之前,设置基址和长度寄存器。如果进行线性访问,把对应的L寄存器长度设置为0。,49,DAB 访问,(II),a0,rX,rX,rX,b0,a3,a2,a1,c0,b3,b2,b1,d0,c3,c2,c1,e0,d3,d2,d1,Instruction references,this location with J0 (0x03),First memory access references this location 0x 00 as “nearest” quad aligned boundary,a0,rX,rX,rX,X,X,X,X,a0,rX,rX,rX,a1,a2,a3,b0,X X X X flushed by,second memory access,Memory - 128-bit wide,DAB after first access,DAB after second access,Example instruction: R3:0 = DAB Q J0 += 4;,Assume J0 = 03,Quad transfers out of DAB start at J0 - a0, a1, a2, a3,00,04,08,0C,10,Residual data from,previous access,50,Memory - 128-bit wide,Four 32-bit words,Eight 16-bit words,a2,a0,X,X,X,X,X,a1,a3,a4,a5,a6,a7,b0,b1,b2,b3,b4,b5,b6,b7,0C,08,04,00,07 06 05 04 03 02 01 00 16-bit reference,03 02 01 00 32-bit reference,Example instruction: R3:0 = SDAB Q J0 += 8 ;,Assume J0 = 05,Solution:,Lower 16-bit word will be 2x the 32 bit reference,Upper 16-bit word will be 2x 32-bit reference + 1,Prefix “S” in SDAB signals this form of addressing,DAB 访问,(III) 短字操作,对于短字访问问题是怎样索引高或者低16位字?,51,sDAB Code Example,_main:,j0 = j31 + input;/ set pointers,j0 = j0 + j0; k1 = k31 + output;,LC0 = 10;,r7:4 = sDAB Qj0 += 8;/ prefetch,tol:r7:4 = SDAB Qj0 += 8;/ final data,r9:8 = r1:0 * r5:4 (S);/ multiplies,r11:10 = r3:2 * r7:6 (S);/ multiplies,r8 = SUM sr9:8;/ sideways sum,r9 = SUM sr11:10;/ sideways sum,r8 = SUM sr9:8;/ sideways sum,Lk1+=2=r8; j0=j0-14;/ store result to memory,if nlc0e, jump tol; r7:4 = SDAB Qj0+=8;/ prefetch,52,存储器 寻址的限制,包含UREG内部存储器空间写处理时仅通过多处理器空间进行访问,使用总线簇要注意!,在处理器(不是MP空间)内部用作数据交换的内部存储器空间不会映射到总线簇上。,仅外部主总线可以访问存储器映射的通用寄存器。它们通过多处理存储器空间进行访问。,所有的存储器必须在正确的字长范围内进行访问。,53,XCORR,指令,54,用于路由搜索的,XCORR,指令,利用一个已知的带有多重延迟的参考码与一个长序列相关(如一个8位引导的2048个复输入),软件实现,利用XCORRS 在一次PASS中计算16个多重延迟,XCORRS 与ADSP-TS101的16 DESPREAD 指令等价,55,解扩框图 (扩展(Spreading) = 8+),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x8),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x1),Q,I(2x16),Acceleration,Register (THR),Acceleration,Register (TR),Normal Quad,Register,56,路由(Path)搜索指令,TigerSHARC 每个运算模块完成16个延迟,每个迟延进行输出相关,57,外部接口,时钟提供,LVDS,链路口,58,时钟分配,59,时钟输入的关系,TigerSHARC,的时钟,SCLK ,总线簇时钟,SOCCLK SOC,总线时钟,CCLK ,内核时钟,相关性,SOCCLK * 2 = CCLK,SCLK * SCLKRAT = 500MHz,时钟输入,SCLK ,时钟输入,SCLK_VREF ,参考引脚,60,LVDS,链路口,61,TS101和TS201链路口比较,TS101,TS201,链路口数目,4个双向,4个双向,数据吞吐率,每个250MBytes/s,每个500MBytes/s,数据宽度,8位双向:,LxDAT7:0,LVTTL电平,4位接收:,LxDATO3:0,4位发送: LxDATO3:0 LVDS差分电平,链路口控制信号,3个:,LxCLKOUT (LVTTL),LxCLKIN (LVTTL),LxDIR (LVTTL),6个:,LxCLKOUT,(LVDS),LxCLKIN,(LVDS),LxACKOUT,(LVTTL),LxACKIN,(LVTTL),LxBCOMPO,(LVTTL),LxBCOMPI,(LVTTL),数据传送时间,时钟上沿和下沿,时钟上沿和下沿,62,链路控制器,IFIFO,OFIFO,OBUF,Bus Interface Unit,DMA Controller,Links Controller,INTERNAL,BUS,Data,Address,Control,4 independent,Link Ports,Control Reg,Status Reg,TCBs,128-bit DATA,32-bit ADDR,I/O Processor,DMAR,S-bus,DMA,requests,63,TS201链路口综述,TigerSHARC 的可以选择的通信通道,专门设计用于TigerSHARC之间的点点通信,可以用于任意的其它按照链路口协议设计的器件之间的通信,吞吐量,每个链路口的数据传输率高达,500Mbytes/s,传输协议,内核 通过中断或者查询方式,DMA - 通过专门的链路口发送和接收DMA通道,程序加载,链路口也可以用于程序加载,复位以后所有的链路口通道都可以被初始化去接收256字,然后转移它们到内部存储块B0的地址0,64,链路口控制器,LBUFTX,Shift Register,LBUFRX,Shift Register,PHY,Links Ports,SOC Bus,移位寄存器的宽度是4个字,TS201链路口结构,LBUFTX 和 LBUFRX 是存储器映射的,FIFO 缓冲区,软件不能访问移位寄存器,PHY,65,TS201,物理接口引脚,4,个链路口的发送和接收部分,引脚,LxDATO3:0 (pairs),L,VDS 4,-bit 双向数据引脚,LxDATI3:0 (pairs) LVDS 4,-bit双向数据引脚,LxCLKOUT(pair) LVDS,时钟输出引脚,LxCLKIN (pair)LVDS,时钟输入引脚,LxACKOUTLVTTL,时钟输入引脚的握手输出,LxACKINLVTTL,握手输入,LxBCOMPOLVTTL,块完成输出,LxBCOMPILVTTL,块完成输入,协议,在链路口驱动时钟的上升和下降沿都驱动和锁存数据,66,TS201链路口发送和接收,内核的驱动传输的实现借助,内核写4个字到LBUFTX 寄存器,内核从LBUFRX 寄存器读入4个字,DMA驱动传输,每个链路口有两个 DMA 通道,Tx 和 Rx,链路口 DMA,需要传输控制块 (TCB)用于 Tx 或者 Rx,仅允许4字为单位传输,支持链路口DMA 交叉传输,67,传输模式,4bit,高吞吐量模式,1bit,最小写模式,68,连接框图,69,LVDS,互连,近距离连接,70,LVDS,互连远距离连接,71,LRCTLx 链路口接收控制寄存器,LTCTLx 链路口发送控制寄存器,控制寄存器,LREN -,接收使能位,RVERE -,校验使能位,RTOE -,接收超时使能位,RBCMPE -,块传输完成信号使能位,RDSIZE -,传输的引脚宽度选择位,ROVRE -,接收溢出使能位,LTEN -,发送使能位,TVERE -,校验使能位,TTOE -,发送超时使能位,TBCMPE -,块传输完成信号使能位,TDSIZE -,传输的引脚宽度选择位,SPD -,传输速度选择,31 : 6,5,4,3,2,1,0,RESERVED,ROVRE,RDSIZE,RBCMPE,RTOE,RVERE,LREN,31 : 12,11 : 8,7 : 5,4,3,2,1,0,RESERVED,SPD,TDSIZE,TBCMPE,TTOE,TVERE,LTEN,72,物理变化,AC / DC,电平和性能,功耗考虑,73,功耗 - TigerSHARC 功耗的构成因素,P(internal):,内部功耗 (V,DD,): 内核和其它内部电路,V,DD,= 1.0V (标称值),P(external):,外部功耗 (V,DD_IO,): I/O驱动和相关电路,V,DD_IO,= 2.5V (标称值),P(edram):,内部 DRAM 功耗 (V,DD_EDRAM,): 内部存储器和相关电路,V,DD_EDRAM,= 1.5V (标称值),74,功耗内核功耗 (V,DD,),内核平均功耗取决于所执行的指令序列及其相关的数据操作,平均内部功耗估计计算,P(internal) = I,DDIN, V,DD,I,DDIN,是各种级别指令的执行时间的百分比的加权平均,各种级别指令的描述参见,“Estimating Power for the ADSP-TS201”,engineering note (EE-170):,组成包括最大, 典型, 控制, DMA, Idle, 低功耗Idle,75,功耗内核功耗,(V,DD_IO,),外部功耗 (V,DD_IO,) 是外部输出引脚开关切换引起,且与系统结构有关,各类引脚的幅度情况估计:,每个周期切换的输出引脚 数(O),最高开关频率 (f),负载电容 (C),电压摆幅 (V,DD_IO,),外部功耗估计:,P(external) = O C V,DD_IO,2 f,细节请参考 “Estimating Power for the ADSP-TS201” engineering note (EE-170),76,功耗内部存储器功耗,(V,DD_EDRAM,),内部存储器功耗 (V,DD_EDRAM,) 是内部存储器和相关电路引起的: P(edram),供电方式可以选择 (由 ENEDREG控制):,外部供电通过 V,DD_EDRAM,引脚,内部调节供电通过 V,DD_IO引脚,推荐外部供电,低的初始风险,内部调节时产生功耗会带来热设计问题,77,功耗热设计,热设计考虑以下因素:,内核平均功耗 (V,DD,): P(internal),外部功耗 (V,DD_IO,): P(external),内部存储器功耗 (V,DD_EDRAM,): P(edram),TS201 热功耗估计,P(thermal) = P(internal) + P(external) + P(edram),78,TS201 初步估计功耗值:,“典型的”平均内核功耗:,“典型的” 平均内核功耗:,“最大”内核功耗,EDRAM 最差条件下功耗 = 1W,“典型的” 定义为“Max”, “Typ”, and “Ctrl” 条件的加权平均,细节参考,EE 170.,外部功耗与系统结构有关。,79,TigerSHARC的典型电源需求值,内核电压,内核电流,IO电压,IO电流,TS101S,1.2 V,1.6 A,3.3 V,137 mA,TS201S,1.05 V,2.5 A,2.5 V,137 mA,TS202S,1.05 V,2.5 A,2.5 V,137 mA,TS201S,1.05 V,2.5 A,2.5 V,137 mA,注:TS20X还需要考虑内部存储器功耗,80,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!