亚马逊最新Arm服务器芯片详解
来源:内容由半导体行业观察(ID:icbank)编译自chipsandcheese,谢谢。
2022 年 5 月下旬,AWS 向公众发布了 Graviton 3。Graviton 3 是第一个将 SVE 指令集引入可广泛访问的服务器 CPU 的 ARM CPU。在 Graviton 3 全面上市之前,Neoverse N1 主导了 ARM 服务器领域。AWS 之前的旗舰产品 Graviton 2 在 2.5 GHz 下实现了 64 个 Neoverse N1 内核。微软的 Azure 和甲骨文的 OCI 都使用 Ampere Altra,它将 80 个 Neoverse N1 内核放在网格上,并以 3 GHz 的频率为它们提供时钟。因此,我们将在 Graviton 3 和 Neoverse N1 之间进行比较。我们将用 AMD 的 Zen 3 和英特尔的 Ice Lake SP (Sunny Cove) 的数据来补充这一点。截至 2022 年中期,这些是云环境中使用的最新广泛部署的 x86 芯片,因此将成为 Graviton 3 最直接的竞争对手。TheNextPlatform提出了一个令人信服的论点,即 Graviton 3 基于修改后的 Neoverse V1 核心。分支预测:向前迈出的一大步
与 N1 相比,ARM 显著改进了分支预测器,并在速度和准确性方面取得了长足的进步。快速浏览一下 Graviton 3 的模式识别功能,可以清楚地看出它与 N1 完全不同。前端:熟悉的模式,有技巧
Graviton 2 和 3 都具有四宽解码器,但差异到此为止。在解码器后面,ARM 实现了一个具有 3K 条目的大型微操作缓存。因此,Graviton 3 的前端与 Intel 和 AMD 的前端非常相似。Graviton 3 的Renamer:新兴能力
Graviton 3 的renamer似乎是 6 宽,让核心在整体宽度上与 Zen 3 相匹配。在renamer优化方面,Graviton 3 对 Neoverse N1 进行了改进。但是作为 CPU 制造商很难,因为你的竞争对手也总是在进步。AMD 在 Zen 中引入了极其强大的移动消除功能,而英特尔在 Sunny Cove 中也做了同样的事情。这两个 x86 CPU 都可以以匹配重命名器宽度的速率消除寄存器到寄存器移动指令。乱序结构尺寸
我们仍在忙于拆解 AWS 的新云 CPU。在这个预览中,我们将展示一些原始测试结果和合理的解释,因为结果并不总是直截了当的。让我们从重新排序缓冲区大小开始。这个结构的大小对应于 CPU 的执行引擎可以跟踪多少微操作。通常我们会用 NOP 进行测试,但 Graviton 3 的 NOP 融合能力使结果解释变得复杂。对 NOP 的测试表明,Graviton 3 的 ROB 有 512 个条目。但是 ROB 的实际容量可能是 256 个条目,如果每个条目都存储一个代表两个 NOP 的融合微操作。调度程序布局
执行单位
Graviton 3 的执行单元相当强大,符合我们对高性能内核的期望。与 Neoverse N1 的三个相比,有四个整数 ALU,三个内存pipeline( Neoverse N1 只有两个)。Graviton 3 的浮点和向量执行端得到了最大的升级,感觉就像是 Neoverse N1 的向量/FP 执行资源加了一个大的统一调度器的两倍。256 位 SVE 浮点加法和乘法每个时钟最多可以执行两次,从而使 Graviton 3 的浮点吞吐量与支持 AVX 的 x86 内核相当。Graviton 3 还继承了 Neoverse N1 的向量和浮点执行延迟,只是略微降低了整数乘法延迟。高速缓存和内存访问
潜伏
Graviton 3 保留了 4 个循环,64 KB L1D。但是,ARM 改进了整个缓存层次结构的延迟。L2 容量保持不变,而延迟下降了两个周期。L3 延迟在 Ampere Altra 上非常糟糕,谢天谢地,Graviton 3 的延迟要好得多。
带宽
在核心数量匹配的情况下,Graviton 3 的缓存提供了合理的性能,与 Ampere Altra 相比,提供了全面的带宽改进。如果 SVE 发挥作用,Graviton 3 的 L1 和 L2 缓存带宽将比 Neoverse N1 高出不少。最初的想法
SVE 支持
Graviton 3 之所以引人注目,是因为它是第一个支持 SVE 的通用 64 位 ARM 服务器 CPU。富士通的 A64FX 最先出现,但那是专为超级计算机设计的芯片,而非通用用途。我们还在一些最近发布的高端手机上看到了 SVE2 支持,但在其他服务器芯片上却没有。在不久的将来,这可能是一个有限的优势。几乎没有支持 SVE 的软件。GCC 将完全拒绝发出 SVE 指令(至少在我们有限的经验中),即使您使用汇编,所以我们使用 Clang 来汇编我们的测试代码。在接下来的几年里,吸收可能会很缓慢。SVE 的市场渗透率远不及 AVX(2),这让 SVE 的情况让人想起 2017 年 Skylake-X 面世时的 AVX-512。所以 Graviton 3 将不得不等待几年才能判断 SVE 是否给它带来了显着的优势。但这也有问题。SVE2 已经推出,如果软件使用 SVE2 中不存在的指令,那么 Graviton 3 将被抛在后面。对抗竞争
AWS 的 Graviton 3 使用比 Neoverse N1 更强大的核心架构。N1 是当前 ARM 服务器产品的中流砥柱,这意味着 Graviton 3 是云中性能最高、广泛可用的 ARM CPU。在接下来的几年里,它很可能会留在那个位置。在 x86 的竞争中,Graviton 3 的单核性能可能比N1更接近 Zen 3 和 Ice Lake 。在分支预测、重新排序能力、执行资源和内核宽度方面,ARM 的 V1 微架构(假设这是 Graviton 3 的基础)与英特尔和 AMD 当前的服务器产品处于同一水平。但我不指望 Graviton 3 能与 AMD 和 Intel 匹敌。Graviton 3 与其 x86 竞争对手之间存在巨大的时钟速度差异,而且 V1 并不是更大更强大。从亚马逊的角度来看
该设计似乎非常狭隘地针对最大化云中的计算密度。为此,AWS 选择了非常保守的核心时钟。在 2.6 GHz 时,Graviton 3 的时钟频率仅比其前身 Graviton 2 高 100 MHz,而没有增加每个芯片的核心数量。因此,Graviton 3 几乎所有的性能优势都来自每时钟性能的提升。亚马逊因此选择使用台积电最先进的 5 纳米工艺来降低功耗。台积电的 7 nm 工艺已经为低功耗设计创造了奇迹,而 5 nm 将进一步发展。虽然 Graviton 3 的核心比 N1 更强大,但它远不如英特尔的 Golden Cove 雄心勃勃,仍应被视为中等设计。这样一个在 5 nm 上以 2.6 GHz 运行的内核绝对可以降低功耗。这反过来又让 AWS 将其中三个芯片打包到一个节点中,从而提高了计算密度。最终的结果是一种芯片可以让 AWS 以更低的价格销售每个 Graviton 3 内核,同时仍然比之前的 Graviton 2 芯片提供显着的性能提升。★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3055内容,欢迎关注。
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
国产128核ARM服务器芯片,整数计算能力世界第一,已经实现商用
ARM架构,是规避制裁风险的一个选择,尤其是对高速发展的中国来说。
而苹果在ARM架构上取得了巨大的成功,其M1芯片拥有强悍的性能,不论是在专业设计、视频剪辑渲染,还是玩大型游戏等方面,均有非常出色的表现。
其实我们中国的厂商也有了很大的进步,例如去年,阿里巴巴旗下平头哥推出了全球首款5nm ARM服务器芯片倚天710,最近,关于它的性能测试成绩出炉了。那么这款国产ARM芯片,到底有怎么样的性能表现呢?跟传统的AMD、Intel相比又如何?今天这条视频我们就来聊聊这个话题。
2021年10月份的云栖大会,阿里巴巴旗下半导体公司平头哥发布了自研云芯片倚天710。
倚天710被誉为界性能最强的ARM服务器芯片,性能超过业界标杆20%,能效比提升50%以上。
它采用ARMv9架构,由台积电代工,使用了业界最先进的5nm工艺,集成了600亿个晶体管,128核CPU,主频最高达到3.2GHz,每核心 1MB 二级缓存,每芯片 128MB 三级缓存,包含 8 个 DDR5-4800 内存通道,可提供高达 307.2 GBps 的带宽,以及 96 个 PCIe 5.0 通道。
参数上来看,自然是十分优秀,而更关键的是,倚天710已经开始商用。
今年4月份,阿里云已经推出了ECS g8m实例,它是阿里云第一款使用倚天710 CPU的实例,主要针对通用计算、云原生以及Android in Cloud等场景,最多可支持128核及512GB内存,号称性价比最高。
与之前使用第三代Intel Xeon处理器的实例相比,ECS g8m实例算力性价比提升100%,并且在网络和存储性能指标上,比上一代ARM实例也提升了100%。
目前这款ARM实例还在开放测试中,预计在九、十月份就可以正式面向市场投放了,也让我们一起期待,这款使用国产ARM芯片的实例到来。
而在云栖大会上,阿里云还发布了“磐久”服务器,这是一款专门搭载倚天710的自研服务器,并由阿里云自用。
在2021年双11期间,磐久服务器首次上线运行,应用于电商等多个重要的核心场景,顺利支撑了双11、双12两次电商流量的洪峰考验,性能和稳定性均超预期,可见,倚天710在性能方面的确值得肯定。
另外,近日阿里巴巴还发布了倚天 710的SPEC2017测试成绩。
在整数运算方面,倚天 710取得了510分的优异成绩,不仅遥遥领先于其他ARM处理器,甚至比AMD的64核霄龙(EPYC)7773X处理还要高出15%,这款CPU的分数是440分。同时,也要比英特尔的36核至强铂金8351N的266分高90%。也就是说,倚天 710在这项整数测试中排名世界第一,为业界最强。
值得注意的是,在刚刚发布的时候,倚天710的SPEC整数跑分是440,而最新的成绩提升了70分,说明芯片经历了一定的优化,性能也更进一步。
不过我们需要提一下,倚天710的单核心分数3.984分,要比AMD的EPYC 777X单核心的6.875分低一些,不过更多的核心弥补了这个缺点。
另外,倚天710这次还没有提交浮点运算成绩,其浮点计算能力暂时未知,稍显可惜。
总之,作为一款专门为云服务器设计的芯片,倚天710已经通过电商流量峰值以及权威测试证明了自己的能力,而随着商业化产品的到来,相信倚天710一定能够发挥出更大的价值。
当下,我们已经进入了云计算的时代,而在5G的加持下,未来一定会有多种多样的云服务走入我们的日常生活,所以这个领域也必须要做到自主可控,有像倚天710这样优秀的国产服务器芯片,势必可以更好的保证我国在云计算方面的战略安全,所以这也是有巨大的战略意义和实际意义的。
好了,今天咱们就聊到这儿,大家有什么想法可以在评论区留言,一起参与讨论。记得关注我,我是老万,谢谢大家,明天我们不见不散。
相关问答
arm电脑芯片?
ARM公司以及ARM芯片的现状和发展,从应用的角度介绍了ARM芯片的选择方法,并介绍了具有多芯核结构的ARM芯片。列举了主要ARM芯片供应商,其产品以及应用领域。非...
如何评价华芯通发布ARM架构服务器芯片?
其实从目前情况来看,并不看好ARM架构服务器。华芯通这家公司呢,是贵州省政府与美国高通公司联合出资成立的,其技术来源本质属于高通系的产品。其实,高通很早...
怎么看待高通退出ARM服务器芯片市场?
先给大家简单普及一下,ARM是英国公司的一家公司,是全球领先的半导体知识产权(IP)提供商。全世界超过95%的智能手机和平板电脑都采用ARM架构[1]。ARM设计了大...
mediatekarm是什么芯片?
mediatek是一种5G芯片,手机芯片是IC的一个分类,是一种硅板上集合多种电子元器件实现某种特定功能的电路模块,它是电子设备中最重要的部分,承担着运算和存储的...
arm芯片是什么意思?
ARM芯片是英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全称为AdvancedRISCMachine。ARM处理器本身是32位设计,但也配备16位指令集,一般来讲比...
ARM断供芯片架构,国产芯片再遭重创,中国芯如何突围?
芯片是国家重中之重,必须要搞出来要超越其他国家,才是科技大国才能当强国。高薪挖外国的人才,集中本国的人才,又有芯片这个东西存在,花力气抓一定能成功。芯...
目前国内应用比较多的arm处理器芯片有哪些
arm芯片ARM公司ARM(AdvancedRISCMachines)是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件。...
ARM芯片公司是那国的?
ARM芯片公司是英国的。ARM(AdvancedRISCMachines)成立于1990年,总部位于英国剑桥。ARM是一家全球领先的半导体和软件设计公司,专注于开发低功耗、高性能的...
arm主控芯片优缺点?
ARM的优点一、高可靠性、高稳定性:在工业控制领域,性能稳定可靠是自动控制基本的要求,ARM嵌入式主板有着很特殊的优势。二、强大的扩展功能和网络传输功能。...
stm芯片属于arm吗?
stm芯片是属于arm的。STM32是基于ARM®Cortex®M3处理器内核的32位闪存微控制器,为MCU用户开辟了一个全新的自由开发空间,并提供了各种易于上手的软硬件...