AI时代的CPU能做什么?第五代英特尔至强给出完美答案
如果把科技圈比作娱乐圈,那么这两年的顶流一定是AI。
2023年,世人见证了ChatGPT在全球范围内的大火,以生成式AI为代表的新一轮人工智能应用问世,改变了人工智能(AI)技术与应用的发展轨迹,并开始在各行各业中得到广泛应用。全球多个调研机构的调研结果都显示,有接近58%的企业都有意在未来几年将生成式AI导入到自身的业务当中,预计到2026年,全球将会有超过3000亿美金投入到生成式AI当中,包括硬件、软件和解决方案等,其中有多达50%以上的边缘应用也会采用AI技术。
AI领域的发展离不开强劲的算力,在过去几年,人们普遍认为,包含大量高强度并行计算任务的AI计算理所应当应该让擅长图形处理的GPU来做,但众所周知,AI计算包括推理和训练两部分,虽然GPU在训练方面的优势很大,但在推理环节,GPU实际上也并非“唯一解”,负责执行各种程序指令,处理各种逻辑和算法的CPU,实际上也能在AI计算中发挥极大的作用。
例如英特尔在去年年底推出的第五代至强可扩展处理器,就是一款具备强劲AI性能的CPU产品。通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB),以及软件生态方面的优化,与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。
“无论是英特尔内部的实验结果还是来自客户的反馈都验证了第五代至强在AI计算上的能力,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是大家讨论的比较多的文生图、机器人聊天客服、代码撰写等生产力提升的应用中,基于第五代至强的服务器的结果还是比较有优势的,因此我们也非常有信心能够满足这一类生成式AI模型的工作负载需求。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰总结道。
之所以能在AI计算能力有如此惊人的突破,主要还是源于第五代至强可扩展处理器在硬件架构方面的改进和软件生态方面的优化。
其中在硬件架构 方面,第五代至强可扩展处理器在制程、芯片布局、性能能效、三级缓存和内存IO方面都有不少改进。具体来说,在制程方面,第五代至强基于Intel7制程,同时采用Dual-poly-pitchSuperFin晶体管技术,与第四代至强相比,第五代至强在系统漏电流控制和动态电容等关键技术指标上做了改进,通过这些调整,第五代至强在同等功耗下的频率提升了3%。
在芯片布局 方面,随着算力需求的上升,单个芯片的核心数、IO也不可避免地需要增加,这些都在推动芯片面积的增加,因此也带来了两个问题,其一是芯片的良品率无法保证,其二是单片面积过大会超过光刻机的尺寸限制,所以现在主流的芯片设计都是将大的CPU芯片切分成多个子芯片,然后采用多芯片的方式封装到一个芯片上。例如第四代至强就将芯片切分为互相对称的四部分,而第五代至强在芯片设计上采用了2芯片封装的方法,不仅良率得到了提升,而且也可以更好地控制芯片面积。
在关键性能指标 方面,第五代至强的核心升级为Raptor Cove,核心数增加到了64,LLC增加到了5MB,DDR速度提升到了5600MT/s,UPI速度提升到了20GT/s,此外通过第五代至强内置的全集成供电模块以及增强的主动空闲模式,有效降低了CPU在非满载情况下的能耗,从而更好地提高数据中心的供电有效性。根据SPEC integer的结果,第五代至强的整数计算性能提升了21%,而针对AI负载的性能提升则达到了42%。
由于第五代至强单个模块的LLC容量 达到了5MB,因此整体的缓存大小达到了320MB,所以在数据集不大的情况下,大部分的数据都能放在LLC缓存中,从而减少对内存的访问,以带来更高的性能。不过更大的缓存也会带来可靠性的问题,为此第五代至强的LLC中新增了DEC和TED的编码方式,相较于单位纠错和两位纠错的纠错能力更强,因此使得系统的容错性更高。
最后在内存IO 方面,英特尔通过MIM内存优化、基板走线优化、片上低噪声供电优化等方式,将第五代至强的IO速度提升到了5600MT/s。
除了在底层硬件架构上的改进之外,英特尔在软件解决方案方面的能力也有目共睹,为了能让第五代至强的硬件能力更好地转化为用户价值,英特尔也投入了诸多资源,例如加速数据库处理、数据安全保障以及虚拟化技术的优化等等。
针对AI能力方面,英特尔的软件团队多年来一直在基于x86架构进行持续优化,除了对TensorFlow、PyTorch这类主流开源机器学习框架早早实现支持以外,随着第五代至强的发布,英特尔也向社区上传了300多个深度学习模型,支持50多个面向第五代至强优化过的模型,都可以供开发者调用。
而Intel开发的深度学习工具库OpenVINO则能用于优化深度学习在各类芯片上的表现,对于大语言模型,英特尔则开发了很多高性能库,例如可以大幅提升单机性能的oneDNN和能够提供集群式运算能力的oneCLL,有了oneDNN和oneCCL的加持,第五代至强也随之具备了大模型推理的能力,此外英特尔也对虚拟化层、云原生层和OSKernel层给予了很多的资源,让最新的技术能适配最新的软件栈。
从英特尔技术专家的介绍中得知,从横向延迟的角度来看,100ms是客户业务的阈值,大于100ms时业务体验会比较差,根据英特尔的测试数据,如果卡在100ms的标准上,一颗第四代或第五代英特尔至强可扩展处理器可以支持13B参数的模型。两颗可以做到30B参数的模型,如果想要更短的延迟,只要把模型缩小就可以,而对于6B或者是7B参数的模型,一颗第四代英特尔至强可扩展处理器可以做到60ms。
如果企业选择部署具备高带宽内存的至强Max系列CPU,部署数量可以进一步减少,例如想要进行300亿参数的模型推理,同时控制延时在100ms以内的话,需要两台基于第四代或者第五代至强的两路服务器,但如果采用基于至强Max的方案,只需一台两路服务器即可。
在实际落地中,英特尔久与百度使用四台基于第五代英特尔至强可扩展处理器的双路服务器,一共8颗第五代至强芯片,实现了对70B参数模型的支持,服务器之间的互连则采用oneCCL和RDMA网络,并将延迟控制在了100ms以内,充分证明了GPU并非大模型的唯一选择,CPU也有能力做同样的事。
而为了让广大的AI开发者能够更好更快地在至强的服务器上部署自身的AI应用,英特尔也和百度千帆进行了深度合作,在选择了可以支持的大模型之后,如果想进行部署,系统会提示可以选择AI加速卡或者CPU,使开发人员可以尝试把大语言模型部署在至强处理器上,且不用担心操作问题。
最后,在产品更新层面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,例如预计将于今年推出的更高能效的Sierra Forest,以及针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,从而为万物智能、万物互联的智能世界打好坚实的算力基础。
(8619917)
英特尔Clearwater Forest至强处理器结构确认:至多17小芯片
IT之家 2 月 26 日消息,据外媒 IEEE Spectrum 报道,英特尔在 IFS Direct Connect 活动前的一次采访中确认了 Clearwater Forest 至强处理器的结构。该处理器将由至多 17 个小芯片组成。
根据以往报道,英特尔 Clearwater Forest 将是第二代能效核至强处理器,作为首代产品 Sierra Forest 的继任者于 2025 年推出。此外参考消息人士 @SquashBionic(Bionic_Squash)的爆料,Clearwater Forest 仍将维持最大 288 核设计。
IT之家整理 IEEE Spectrum 文章中的信息如下:
计算芯片:最多 12 个,基于英特尔 18A 制程,包含能效核处理器核心;
基础芯片:最多 3 个,基于英特尔 3 制程,包含主缓存、稳压电路和内部网络;
I / O 芯片:最多 2 个,基于英特尔 7 制程,与 Sierra Forest、Granite Rapids 两款处理器上所用的 I / O 芯片基本相同。
▲ 英特尔 Clearwater Forest 至强处理器示意图参考英特尔提供的图示,每个基础芯片上将搭载 4 个计算芯片,双方之间采用 Foveros Direct 3D 连接。
英特尔数据中心技术和寻路总监埃里克・费策(Eric Fetzer)表示,整个芯片中的非逻辑部分并不能明显受益于制程改进:CPU 的 SRAM 缓存部分使用先进制程的收益低于逻辑,而高速 I / O 部分的收益更低。再加之大型芯片的良率问题,英特尔在 Clearwater Forest 上选择了将 SRAM 和高速 I / O 同逻辑部分分离的设计。
费策还称,Foveros Direct 3D 的跨芯片数据传输能耗为 0.05*10-12 焦耳每比特,这与芯片内部的能耗相同。
关于 Clearwater Forest 计算芯片中采用的 18A 制程,费策认为其采用的 RibbonFET 晶体管将带来相较现有 FinFET 更大的灵活性:晶体管中提升性能与提升电流密切相关,而 FinFET 中的电流必须通过鳍片数量的变化调整,不像 RibbonFET 可透过改变晶体管的宽度按需连续调整。
▲ 英特尔 RibbonFET 技术示意图相关问答
【近来,美国一方面通过禁运英特尔“至强”芯片,打压连续四...
[最佳回答]C【解析】本题考查当前的国际竞争。我国“天河二号”超级计算机四次蝉联超级计算机排行榜世界第一表明我国的科技实力已经处于世界领先水平。C正...
intel至强CPU和酷睿I系列CPU有什么区别-leopardzyh的回答...
简单来说至强系列注重于多任务处理性能,对于单个任务处理能力相对有较大限制,而i系列则注重于桌面性能,对于单个任务能尽可能占用掉CPU资源比如说i5...
什么是英特尔至强可扩展处理器?
至强可扩展处理器(XeonScalable)是intel在今年7月推出的,是五代Broadwell(E5/E7V4)的下一代的至强处理器,核心代号为Skylake-SP,划分成了铜牌、银牌、金牌......
cpu至强系列推荐?
至强cpu排名推荐的有:E7、E5、E3。提起台式电脑的处理器芯片,目前全球范围内被来自美国的2家企业牢牢把控着,一家是大家非常熟悉的inter公司,另一家就是在众...
intelCPU的至强的LXE系列有什么分别?-ZOL问答
而且对于芯片组的功能都有严格的控制绝对不会出现低端主板跑出高端主板的功能或者性能也绝对不会出现民用主板放个商用CPU来组建低成本服务器再者说来X58最...
inter至强e5260好不好相当于酷睿什么级别-ZOL问答
intel至强e5260处理器参数:制作工艺:45纳米;核心代号:Penryn;主频:3.33GHz;...显卡芯片:GeForceGT620;核心频率:700MHz;显存频率:1...
近来,美国一方面通过禁运英特尔“至强”芯片,打压连续四次...
[最佳回答]C【解析】本题考查当前的国际竞争。我国“天河二号”超级计算机四次蝉联超级计算机排行榜世界第一表明我国的科技实力已经处于世界领先水平。C正...
i9都是属于至强处理器吗?
i9都是属于家用和商用型处理器。i9这款顶级的旗舰处理器,暂时没有比他更强的处理器了。对于游戏发烧爱好者是福音。至强处理器属于服务器芯片系列范畴。主要...
intel至强CPU和酷睿I系列CPU有什么区别-Ms.Ji?的回答-懂得
主要区别在于:至强处理器的核心比酷睿的多;倍频比酷睿的多。如图:1.intel至强CPU:2.酷睿I系列CPU:具体数据如下:至强是服务器用的CPU,缓存大,稳定性...
至强8核处理器是什么?
(four-socket)...八核心处理器是英特尔公司推出的新的处理器产品。英特尔公司服务器平台团队产品营销主管夏农·鲍林(ShannonPoulin)表示,该处理器针对四插...