资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,4/7/2013,#,GPU,硬件体系结构介绍,大纲,GPU,最近的成果,CPU vs.GPU,最,近的,GPU,体系结构,CPU,和,GPU,发展趋势,GPU computing,2008,2013,100M,150K,1,60,4000,430M CUDA compatible,GPUs,1.6M CUDA,下载,50,超级计算机,640,所大学采用,CUDA,课程,37,000,篇,paper,应用领域,Oil&Gas,信号图像处理,计算机视觉,生命科学,&,材,料科学,分,子动力学,生,物信息学,医,疗图像,CT,MRI,etc,Big data,CPU vs.GPU(GFLOPS),CPU vs.GPU(GB/s),CPU,体系结构,DRAM,Cache,I$,Control,ALU,FPU,I$,Control,ALU,FPU,I$,Control,ALU,FPU,I$,Control,ALU,FPU,GPU,体系结构,(SIMD/SIMT),DRAM,Cache,I$,Control,ALU,ALU,ALU,ALU,ALU,ALU,I$,Control,ALU,ALU,ALU,ALU,ALU,ALU,I$,Control,ALU,ALU,ALU,ALU,ALU,ALU,I$,Control,ALU,ALU,ALU,ALU,ALU,ALU,为什么需要,SIMD(SIMT),控制逻辑,vs.,数据通路,(i$/fetch/issue/decode/),m,m2/flop,记,分,牌,(scoreboard),分支预测,乱,序缓存,(re-order buffer),Memory wall,Byte/flop,访,存效率,DDR,的特点,Power wall,Watt/flop,Memory Wall,为什么?,Byte/flop(compute),典,型应用,访,存效率,DDR,特点,提,高访存效率,Byte/compute,比例,程,序,=,数据,+,算法,完成单位计算需要的数据,矩,阵乘法,DDR,架构,选,择,bank,激活(,activate,)一行(行寻址),根据,列地址读取数据(列寻址),Array of cells,decode,Array of cells,decode,Row data,Row data,row,bank,col,col addr,col addr,Data bus,DDR,时序(简化模型),提高访存效率,主,要指标:,b,yte/activate,CPU,:,大,cache,提,高命中率,减少访存次数,L2/L3 cache,增,加,mm2/flop,GPU:,高并发,合并访,存,提,高,byte/activate,控制,逻,辑,vs.,数据通路,更多控制逻辑?,SISD,更,多数据通路?,SIMD,SIMD,的优势,mm2/flop,watt/flop,但,是,并,行编程挑战,资源访问冲突,访存效率,冗,余计算,负,载均衡,通,讯开销,如,何利用多核系统,Massive Parallelism,Data parallelism,Regular computation,Do similar work in different thread,避,免资源冲突,挑战?机遇?,高频,率,=,高性能?,GPU,历史,固定功能流水线,可编,程流水线,统,一处理器流水线,通,用图形处理器,(GPGPU),GPU,固,定流水线,简单,OpenGL,程,序,大部,分功能固定,只,能修改部分参数,可编程流水线,简单的,shader,Pixel-shader,f,or each pixel,Input:pixel,坐标,等,Output:pixel,颜色,等,统,一处理器流水线,通,用计算(,GPGPU,),利,用,GPU,的高浮点计算能力,利,用,OpenGL,启动计算代码,缺,点,编,程困难,OpenGL,的,开销,CUDA/OpenCL,CUDA,简单模型,GPU,CPU,数据,+,代码,运,算结果,GTX 8800,http:/,Kepler(K20),http:/,http:/,Kepler(K20),SMX,处理,器架构,高性能,peak flops,高效率,perf/watt,存储系统,增,强的编程模型,SMX,1x clock,2x,数据通路面积,节省功耗,4,warp scheduler,32,个线程同时调度(,warp,),2,dispatch per scheduler,每线程,255,寄存器,SHFL,指令,线,程间交换数据,高,速,atomic,增,加只读内存优化,编程模型,动态并行,Hyper-Q,GPU direct,GPU,发展趋势,
展开阅读全文