armcortex各系列处理器分类比较

资源描述

Cortex-M 系列M0：Cortex-M0是目前最小的ARM处理器，该处理器的芯片面积非常小，能耗极低，且编程所需的代码占用量很少，这就使得开发人员可以直接跳过16位系统，以接近8位系统的成本开销获取32位系统的性能Cortex-M0处理器超低的门数开销，使得它可以用在仿真和数模混合设备中。M0+：以Cortex-M0处理器为基础，保留了全部指令集和数据兼容性，同时进一步降低了能耗，提高了性能。2级流水线，性能效率可达DMIPS/MHz。M1：第一个专为FPGA中的实现设计的ARM处理器。Cortex-M1处理器面向所有主要FPGA设备并包括对领先的FPGA综合工具的支持，允许设计者为每个项目选择最佳实现。M3：适用于具有较高确定性的实时应用，它经过专门开发，可使合作伙伴针对广泛的设备（包括微控制器、汽车车身系统、工业控制系统以及无线网络和传感器）开发高性能低成本平台。此处理器具有出色的计算性能以及对事件的优异系统响应能力，同时可应实际中对低动态和静态功率需求的挑战。M4：由ARM专门开发的最新嵌入式处理器，用以满足需要有效且易于使用的控制和信号处理功能混合的数字信号控制市场。#M7：在ARM Cortex-M处理器系列中，Cortex-M7的性能最为出色。它拥有六级超标量流水线、灵活的系统和内存接口（包括AXI和AHB）、缓存（Cache）以及高度耦合内存（TCM），为 MCU提供出色的整数、浮点和DSP性能。互联：64 位 AMBA4 AXI, AHB 外设端口（64MB 到 512MB）指令缓存：0到64kB，双路组相联，带有可选ECC数据缓存：0到64kB，四路组相联，带有可选ECC指令TCM： 0到16MB，带有可选ECC数据TCM： 0到16MB，带有可选ECCCortex-M系列规格对比类别M0M3M4M7体系结构ARMv6M （冯诺依曼）（ARMv6M （哈佛）ARMv6M （哈佛）ARMv7-M （哈佛）ISA支持Thumb,Thumb-2Thumb,Thumb-2Thumb,Thumb-2Thumb,Thumb-2、DSP扩展单周期16/32位MAC 单周期双16位MAC 8/16位SIMD运算硬件除法（2-12周期）单周期16/32位MAC【单周期双16位MAC8/16位SIMD运算硬件除法（2-12周期）浮点单元单精度浮点单元符合 IEEE 754单和双精度浮点单元与IEEE 754兼容流水线3级3级3级+分支预测6级超标量+分支预测DMISP/MHz#中断NMI+1-32物理中断NMI+ 1-240物理中断NMI + 1240物理中断#NMI + 1240物理中断中断优先级825682568256唤醒中断控制器/最多240个最多240个最多240个内存保护带有子区域和后台区域的可选8区域MPU带有子区域和后台区域的可选8区域MPU可选的8/16区域MPU，带有子区域和背景区域睡眠模式集成的WFI和WFE指令和“退出时睡眠”功能。睡眠和深度睡眠信号随 ARM电源管理工具包提供的可选的 Retention 模式集成的WFI和WFE 指令和“退出时睡眠” 功能。睡眠和深度睡眠信号。随ARM电源管理工具包提供的可选保留模式集成WFI和WFE指令和“退出时睡眠”功能。睡眠和深度睡眠信号。！随ARM电源管理工具包提供的可选 Retention模式集成WFI和WFE指令以及 Sleep On Exit 功能。休眠和深度休眠信号。ARM电源管理工具包及可选Retention模式增强的指令硬件单周期（32x32）乘法选项硬件除法（2-12个周期）和单周期（32x32）乘法、饱和数学支持。调试可选JTAG 和Serial-Wire 调试端口。最多4个断点和2 个观察点可选JTAG和串行线调试端口。最多8个断点和4个检测点。可选JTAG 和Serial-Wire 调试端口。最多8个断点和4个检测点。可选的JTAG和串行线调试端口。最多8 个断点和4个观察点。跟踪可选指令跟踪（ETM）、数可选指令跟踪（ETM）、可选指令跟踪（ETM）、据跟踪（DWT）和测量跟数据跟踪（DWT）和测数据跟踪（DWT）和测踪(ITM)量跟踪（ITM）量跟踪（ITM）Cortex-A 系列：ARM Cortex-A系列是一系列用于复杂操作系统和用户应用程序的应用程序处理器。Cortex-A系列处理器支持ARM、Thumb和Thumb-2指令集。A5：一个高性能、低功耗的ARM宏单元，带有L1高速缓存子系统，能提供完全的虚拟内存功能。 Cortex-A5处理器实现了 ARMv7体系结构并运行32位ARM指令、16位和32位Thumb 指令，还可在Jazelle状态下运行8位Java字节码。Cortex A-5是最小以及最低功耗的Cortex-A处理器，但处理性能比其他A系列差。A7：Cortex-A7处理器的功耗和面积与超高效Cortex-A5相似，但性能提升1520%，Cortex-A7 是ARM的大小核设计中的小核部分，并且与高端 Cortex-A15 CPU体系结构完全兼容。 Cortex-A7处理器包括了高性能处理器Cortex-A15的一切特性，包括虚拟化（virtualization）、大容量物理内存地址扩展（Large Physical Address Extensions （LPAE），可以寻址到 1TB 的存储空间）、NEON、VFP 以及 AMBA4ACE coherency （AMBA4 Cache Coherent Interconnect （CCI）。Cortex-A7 支持多核 MPCore 的设计以及 Big+Little 的大小核设计。小型高能效的Cortex-A7是最新低成本智能手机和平板电脑中独立CPU的理想之选，并可在处理配置中与Cortex-A15结合。A8：第一个使用ARMv7-A架构的处理器，很多应用处理器以Cortex-A8为核心。Cortex-A8处理器是一个双指令执行的有序超标量处理器，针对高度优化的能效实现可提供 Dhrystone MIPS （每MHz），这些实现可提供基于传统单核处理器的设备所需的高级别的性能Cortex-A8 在市场中构建了 ARMv7 体系结构，可用于不同应用，包括智能手机、智能本、便携式媒体播放器以及其他消费类和企业平台。分开的L1指令和数据 cache大小可以为16KB或者 32KB，指令和数据共享L2 cache，容量可以到1MB。L1和 L2 cache的cache数据宽度为128比特，L1 cache是虚拟索引，物理上连续，而L2完全使用物理地址。Cortex-A8的L1 cache行宽度为64byte，L2 cache在片内集成。另外和Cortex-A9相比，由于Cortex-A8支持的浮点VFP运算非常有限，其VFP的速度非常慢，往往相同的浮点运算，其速度是Cortex-A9的1/10。Cortex-A8能并发某些NEON指令(如 NEON的load/store和其他的NEON指令)，而 Cortex-A9因为NEON位宽限制不能并发。 Cortex-A8的NEON和ARM是分开的，即ARM核和NEON核的执行流水线分开，NEON访问 ARM寄存器很快，但是ARM端需要NEON寄存器的数据会非常慢。A9：Cortex-A9 MPCore或者单核处理器单MHz性能比Cortex-A5 或者 Cortex-A8高，支持 ARM, Thumb, Thumb-2, TrustZone, Jazelle RCT， Jazelle DBX 技术。L1 的 cache 控制器提供了硬件的cache 一致性维护支持多核的cache 一致性。核外的L2 cache控制器 (L2C-310, or PL310) 支持最多 8MB 的 cacheCortex-A9 的 L1 cache 行宽度为 32byte， L2 cache因为多核的原因在核外集成，即通过SCU来访问多核共享的L2 cache。常见的Cortex-A9处理器包括nVidias 双核Tegra-2, 以及TIs OMAP4平台。使用 Cortex-A9 处理器的设备包括 Apple 的ipad2 ( apple A5 处理器)， LG Optimus 2X (nVidia Tegra-2)， Samsung Galaxy S II 等A15：Cortex-A15 MPCore处理器是目前Cortex-A系列中性能最高的处理器，一个突出的特性是其硬件的虚拟化技术(Hardware virtualization)以及大物理内存的扩展 (Large Physical Address Extension (LPAE), 能寻址到 1TB 的内存)。目前集成Cortex-A15的处理器量产的只有Samsung的Exynos 5系列处理器，但TI的OMAP5 系列处理器也采用Cortex-A15的核。具体的设备有Arndale Board 。(A17:A12的提升版，也就将A12合并到A17中，最新的高性能ARMv7-A核处理器，以更小和更节能的优势，提供与A15相仿的性能。相比A9有60%的性能提升。仍为32位ARMv7Cortex-A17处理器提供了优质的性能和高端的特性使它理想的适合每一个屏幕，从智能手机到智能电视。Cortex-A17处理器架构上与广泛使用Cortex-A7处理器一致，促使下一代中档设备基于技术。A53：最低功耗的ARMv8处理器，能够无缝支持32和64位代码。是世界上能效最高，面积最小的 64位处理器。使用高效的8-stage顺序管道和提升的获取数据技术性能平衡。Cortex-A53提供比Cortex-A7更高的性能，并能作为一个独立的应用处理器或在配置下，搭配Cortex-A57处理器，达到最优性能、可伸缩性和能效。A57：最高效的64位处理器，用于扩展移动和企业计算应用程序功能，包括计算密集型64位应用，比如高端电脑、平板电脑和服务器产品。性能比A15提升一倍。A72 :Cortex-A72是ARM性能最出色、最先进的处理器。于2015年年初正式发布的Cortex-A72 是基于ARMv8-A架构、并构建于Cortex-A57处理器在移动和企业设备领域成功的基础之上。在相同的移动设备电池寿命限制下，Cortex-A72能相较基于Cortex-A15处理器，28 纳米工艺节点的设备，提供倍的性能表现，展现优异的整体功耗效率。Cortex-A72的强化性能和功耗水平重新定义了 2016年高端设备为消费者带来的丰富连接和情境感知(context-aware)的体验。Cortex-A72可在芯片上单独实现，也可以搭配Cortex-A53处理器与ARM CoreLinkTM CCI 高速缓存一致性互连(Cache Coherent Interconnect)构成ARM 配置，进一步提升能效。Cortex-A列规格对比类别。Cortex-A5Cortex-A7Cortex-A8Cortex-A9Cortex-A15发布时间2009年12月2011年10月2006年7月2008年3月2011年4月时钟频率1GHz1GHz on28nm1GHz on65nm2GHz on 40nm on 28nm执行顺序顺序执行顺序执行顺序执行乱序执行乱序执行多核支持，1 to 41 to 411 to 41 to 4MIPS/MHz(2VFP/NEON 支持VFPv4/NEONVFPv4/NEONVFPv3/NEONVFPv3/NEONVFPv4/NEON半精度扩展 (16-bit floating-point )是是否，只有 32-bit单精度和64-bit双精度浮点是是FP/NEON寄存器重命名否否否否是GP寄存器重命名硬件的除法器LPAE (40-bit physical address)硬件虚拟化否否否否No融合的MAC乘累加流水线级数8 pipeline stages指令译码decodes返回堆栈stack 条目浮点运算单元FPUAMBA总线宽度L1 Data CacheSizeL1 InstructionCache SizeOptional64-bit I/FAMBA 34K to 64K4K to 64KL1 CacheStructure2-way setassociativ否是否是LITTLE是8Partial dual issue8Optional128-bit I/FAMBA 48KB to 64KB8KB to 64KB2-way setassociativ e (Inst)否否否否NoBigNo否132 (dual-issue )!8Yes64 or 128-bit I/FAMBA 316/32KB16/32KB4-way setassociative9 to 1215+2 (dual-issue)Optional*2X 64-bit I/FAMBA 316KB/32KB/64K B16KB/32KB/64K B4-way setassociative(Inst)48;Optional128-bit32KB32KB2-way setassociativ e (Inst)e (Inst) 4-way set4-way setL2 Cache type4-way setassociativ e (Data) Externalassociativ e (Data)IntegratedL2 Cache size128KB to1MBassociative (Data)Integrated External128KB to 1MB4-way setassociativ e (Data) Integrated512KB to1MBL2 CacheStructure8-way setassociativ e8-way set8-way set-associativ associativeeCache line (bytes)$3232643264Classic处理器：iARM7：1994年推出，使用范围最广的32位嵌入式处理器系列。MHz的三级流水线和冯诺依曼结构ARM9：ARM9系列技术特点基于ARMv5TE架构高效的5级流水线，更快的吞吐量和系统性能，哈佛结构o #o 提取/解码/执行/内存/写回同时支持 ARM和 Thumb指令集o 高效ARM-Thumb交互工作允许最佳组合性能和代码密度哈佛架构-独立的指令和数据内存接口o 可用内存带宽增加o 同时访问I & D内存o 更高性能31 x 32位寄存器 32位ALU和桶行移位器32位MAC块增强CoreSight ETM9接口用于增强调试和trace 标准 AMBAAHB接口协处理器接口内存控制器内存操作受MMU或MPU控制MMU提供o o 虚拟内存支持o 快速上下文切换扩展（FCSE）MPU支持o内存保护和边界o 应用沙坑效应写缓冲 o 从外部内存解耦内部处理器 o 可在4个独立地址中存储16个字oo 清除缓冲脏行灵活的缓存设计硬件缓存架构大小可从4 KB到128 KB（以2的方幂形式增长）I & D缓存可具有独立大小行长度固定为8个字固定4向集关联零等待状态存取%关键词首先缓存行填充无阻塞虚拟寻址灵活的TCM设计哈佛机构大小可为0 KB或4 KB到1 MB （以二次方形式增长）可具有独立大小可为RAM或ROMI允许等待状态ARM968上的双存储TCM物理寻址o 将非顺序存取停止一个周期以允许地址转换DSP增强单周期32x16乘法器实现 o 加快所有乘法指令 o 流水线设计允许一个16x16或32x16开始每个周期新的32x16和16x16乘法指令o允许独立存取16位半寄存器o允许压缩的16位操作数高效使用32位带宽o ARM ISA提供32x32乘法指令有效微小数字饱和算法o QADD、 QSUB、 QDADD、 QDSUB前导零计数指令o CLZ加快标准化和除法ARM11 :ARM11处理器系列所提供的引擎可用于当前生产领域中的很多智能手机，还广泛用于消费类、家庭和嵌入式应用程序。该处理器的功耗非常低，提供的性能范围为小面积设计中的350 MHz到速度优化设计中的1 GHz（45纳米和65纳米）。ARM11处理器软件可以与以前所有 ARM处理器兼容，并引入了用于媒体处理的32位SIMD、用于提高操作系统上下文切换性能的物理标记cache、强制实施硬件安全性的TrustZone以及针对实时应用的紧密耦合内存。ARM11处理器系列功能：强大的ARMv6指令集架构ARM Thumb 指令集可以减少高达35%的内存带宽和大小需求用于执行高效嵌入式Java的ARM Jazelle 技术 ARM DSP扩展、SIMD （单指令多数据）媒体处理扩展可提供高达2倍的视频处理性能作为片上安全基础的ARM TrustZone 技术（ARM1176JZ-S 和ARM1176JZF-S处理器）Thumb-2技术（仅 ARM1156（F）-S），可提高性能、能效和代码密度低功耗：o mW/MHz （65G），包括 cache 控制器o 节能关闭模式能够处理高级工艺中的静态漏电情况高性能整数处理器o 8级整数流水线可提供高时钟频率（对于ARM1156T2（F）-S为9级）o、o 单独的加载-存储和算术流水线o 分支预测和返回栈高性能内存系统设计o 支持4-64k cache大小o 针对多媒体应用领域的、带DMA的可选紧密耦合内存o 对于媒体处理和网络应用领域，高性能64位内存系统加快了数据存取速度 o ARMv6内存系统架构加快了操作系统上下文切换速度矢量中断接口和低中断延迟模式提高了中断响应速度和实时性能&用于汽车/工业控制和三维图形加速的可选矢量浮点协处理器（ARM1136JF-S、 ARM1176JZF-S 和 ARM1156T2F-S 处理器）所有ARM11系列处理器都作为符合 ARM-Synopsys参考方法的可交付项来提供，从而显著缩短了生成内核的特定技术实现的时间，以及生成一组完整的行业标准视图和模型的时间。Classic处理器比较类别ARM7ARM9ARM11体系结构】冯诺依曼ARMv5TE （哈佛）ARMv6M （哈佛）指令集ARM、 ThumbARM、 ThumbARM、 Thumb、 Thumb-2流水线.3级5级8级DMIPS/MHzNMU）无有有DSP扩展否是是单指令多数据扩展否否是浮点支持否是（VFP9）是（VFP11）Cache支持否是是密集耦合内存否是是TrustZone安全扩展, 否否是（仅 ARM1176JZ （F） -S）Cortex-R 系列：R4：第一个基于ARMv7-R体系的嵌入式实时处理器。专用于大容量深层嵌入式片上系统应用，如硬盘驱动控制器、无限基带处理器、消费产品手机MTK平台和汽车系统的电子控制单元。R5：2010年推出，基于ARMv7-R体系，扩展了 Cortex-R4处理器的功能集，支持在可靠的实时系统中获得更高级别的系统性能、提高效率和可靠性并加强错误管理。这些系统级功能包括高优先级的低延迟外设端口 (LLPP)和加速器一致性端口(ACP)，前者用于快速外设读写，后来用于提高效率并与外部数据源达成更可靠的高速缓存一致性。基于40 nm G工艺，Cortex-R5处理器可以实现以将近1 GHz的频率运行，此时它可提供 1,500 Dhrystone MIPS的性能。该处理器提供高度灵活且有效的双周期本地内存接口，使 SoC设计者可以最大限度地降低系统成本和功耗。R7：Cortex-R7处理器是性能最高的Cortex-R系列处理器。它是高性能实时SoC的标准。Cortex-R7处理器是为基于65 nm至28 nm的高级芯片工艺的实现而设计的，此外其设计重点在于提升能效、实时响应性、高级功能和简化系统设计。基于40 nmG工艺，Cortex-R7 处理器可以实现以超过1 GHz的频率运行，此时它可提供2,700 Dhrystone MIPS的性能。该处理器提供支持紧密耦合内存（TCM）本地共享内存和外设端口的灵活的本地内存系统，使SoC设计人员可在受限制的芯片资源内达到高标准的硬实时要求。Cortex-R系列处理器比较/ / DMIPS/MHz*/ / DMIPS/MHz*/ / DMIPS/MHz*CoreMark/MHz*CoreMark/MHz*CoreMark/MHz*Lockstep configurationLockstep configurationDual-core Asymmetric Multi-ProcessingDual-core AsymmetricLockstep configurationMulti-Processing (AMP)(AMP) with QoS configurationconfigurationDual core Symmetric Multi-Processing (SMP) configurationTightly Coupled MemoryLow Latency Peripheral Tightly Coupled MemoryTightly Coupled Memory (TCM)PortLow Latency Peripheral PortAccelerator CoherencyAccelerator Coherency Port PortSnoop Control Unit (SCU) Micro Snoop Control Unit(SCU)Hardware divide, SIMD,DSPHardware divide, SIMD, DSPHardware divide, SIMD, DSP8-stage dual issue pipeline with instruction pre-fetchand branch prediction8-stage dual issue pipeline with instruction pre-fetch and branch prediction11-stage superscalar pipeline with out-of-order execution and register renaming and advanced dynamic and static branch prediction with instruction loop bufferI-Cache and D-CacheI-Cache and D-CacheI-Cache and D-CacheFPU or optimized SPFPUoptimized SP Floating Point Unit Floating Point UnitMemory Protection UnitMemory Protection UnitMemory Protection Unit (MPU) with 12 or(MPU) with 8 or 12 memory(MPU) with 12 or 16 memory16 memory regionsregionsregionsECC and Parity protectionECC and Parity protectionECC and Parity protection on L1 memorieson L1 memorieson L1 memories and AXI bus,Error management with error bankportsVectored InterruptVectored InterruptController (VIC) Port orController (VIC) orIntegrated Generic InterruptGeneric InterruptGeneric InterruptController (GIC)Controller (GIC)Controller (GIC)IEEE754 Double PrecisionIEEE754 Double PrecisionIEEE754 Double Precision FPU or总结：Cortex-A:面向尖端的基于虚拟内存的操作系统和用户应用Cortex-R:针对实时系统Cortex-M :微控制器

展开阅读全文

armcortex各系列处理器分类比较

最新文档