芯片元器件
HOME
芯片元器件
正文内容
做芯片的机器 4万亿个晶体管,单机可训练比GPT4大10倍的模型,最大的芯片面世
发布时间 : 2025-04-26
作者 : 小编
访问数量 : 23
扫码分享至微信

4万亿个晶体管,单机可训练比GPT4大10倍的模型,最大的芯片面世

机器之心报道

编辑:小舟、陈萍

刚刚,芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息,「我们发布了世界上最快的芯片,该芯片拥有高达 4 万亿个晶体管。」

一直以来,Cerebras 一直在往「大」的芯片方面发展,此前他们发布的晶圆级引擎(Wafer Scale Engine,WSE-1)面积比 iPad 还大。第二代 WSE-2 虽然在面积上没有变化,但却拥有惊人的 2.6 万亿个晶体管以及 85 万个 AI 优化的内核。

而现在推出的 WSE-3 包含 4 万亿个晶体管,在相同的功耗和价格下,WSE-3 的性能是之前记录保持者 WSE-2 的两倍。

此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的,基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力,通过 90 万个人工智能优化的计算核心,提供每秒 125 petaflops 峰值 AI 性能(1 petaflops 是指每秒 1,000,000,000,000,000(1 万亿)次浮点运算)。

WSE-3 呈正方形,边长为 21.5 厘米(面积为 46225mm^2),几乎是使用了整个 300 毫米硅片来制造一个芯片。这么看来,凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片了。

WSE-3 大尺寸到底是个什么概念,在将其与 Nvidia H100 GPU 进行比较后发现,前者大了 57 倍,内核数量增加了 52 倍,芯片内存增加了 800 倍,内存带宽增加了 7000 倍,结构带宽增加了 3700 倍以上。而这些都是芯片实现高性能的基础。

图源:https://spectrum.ieee.org/cerebras-chip-cs3

下图展示了 WSE-3 的特点:

WSE-3

前两代晶圆级引擎的一些参数。图源:https://twitter.com/intelligenz_b/status/1768085044898275534

配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型,这比 OpenAI 的 GPT-4 等顶级生成式 AI 模型的参数高出一个数量级(据传有 1 万亿个参数)。这么看来, 具有 24 万亿个参数的模型在一台机器上运行成为可能。

图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

CS-3 拥有高达 1.2 PB 的巨大内存系统,旨在训练比 GPT-4 和 Gemini 还大 10 倍的下一代前沿模型。24 万亿个参数的模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。

CS-3 专为满足企业和超大规模需求而构建。紧凑的四系统配置可以在一天内微调 70B 模型,同时使用 2048 个系统进行全面扩展,Llama 70B 可以在一天内从头开始训练,这对于生成式 AI 来说是前所未有的壮举。

最新的 Cerebras 软件框架为 PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉 transformer、MoE 和扩散模型)提供原生支持。Cerebras 仍是唯一能为动态和非结构化稀疏性提供本机硬件加速的平台,可以将训练速度提高 8 倍。

「八年前,当我们开始这一旅程时,每个人都说晶圆级处理器是一个白日梦。我们非常自豪能够推出第三代突破性人工智能芯片,并且很高兴将 WSE-3 和 CS-3 推向市场,以帮助解决当今最大的人工智能挑战」,Cerebras 首席执行官兼联合创始人 Andrew Feldman 如是说道。

Cerebras 联合创始人兼首席执行官 Andrew Feldman

卓越的功耗效率和软件易用性

由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。CS-3 性能翻倍,功耗却保持不变。

CS-3 具有卓越的易用性。相比于大模型常用的 GPU,CS-3 需要的代码减少 97%,并且能够在纯数据并行模式下训练从 1B 到 24T 参数的模型。GPT-3 大小的模型在 Cerebras 上实现只需要 565 行代码(而 GPU 需要 20,507 行 )—— 这是行业纪录。

图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

目前,Cerebras 已经积压了大量来自科技企业、科研机构的订单。美国阿贡国家实验室负责计算、环境和生命科学的实验室副主任 Rick Stevens 称赞道:「Cerebras 的大胆精神将为人工智能的未来铺平道路。」

参考链接:

https://www.zdnet.com/article/ai-startup-cerebras-unveils-the-largest-chip-yet-for-generative-ai/

https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

把两块芯片压成一块:EUV以来半导体制造的最大创新

机器之心报道

编辑:泽南、小舟

在一平方毫米的硅片上建立数百万个连接。

从纳米到埃米,芯片制造商正在竭尽全力缩小电路的尺寸。但对于人们日益增长的算力需求,一项涉及更大尺寸(数百或数千纳米)的技术在未来五年内可能同样重要。

这项技术称为直接混合键合(Hybrid Bonding),可在同一封装中将两个或多个芯片堆叠在一起,构建所谓的 3D 芯片。尽管由于摩尔定律逐渐崩溃,晶体管缩小的速度正在变慢,但芯片制造商仍然可以通过其他方式增加处理器和内存中的晶体管数量。

今年 5 月,在丹佛举行的 IEEE 电子元件和技术会议(ECTC)上,来自世界各地的研究小组公布了该技术的各种来之不易的改进,其中一些结果显示,3D 堆叠芯片之间的连接密度可能达到创纪录的水平:每平方毫米硅片上大约有 700 万个连接。

英特尔的 Yi Shi 在 ECTC 大会上报告说,由于半导体技术的新进展,所有这些连接都是必需的。摩尔定律现在受一个称为系统技术协同优化(STCO)的概念支配,即芯片的功能(例如缓存、输入 / 输出和逻辑)分别使用最先进工艺制程制造。然后可以使用混合键合和其他先进封装技术来组装这些子系统,以便让它们像单个硅片一样工作。但这只有在存在高密度连接的情况下才能实现,这些连接可以在几乎没有延迟或能耗的情况下在单独的硅片之间传送数据。

在所有先进封装技术中,混合键合提供了最高密度的垂直连接。因此,它是先进封装行业增长最快的领域,Yole Group 技术和市场分析师 Gabriella Pereira 表示,到 2029 年,该方向的市场规模将增长两倍以上,达到 380 亿美元。预计到那时,混合键合将占据约一半的市场。

在混合键合中,铜 pad 建立在每个芯片的顶面上。铜被绝缘层(通常是氧化硅)所包围,pad 本身略微凹进绝缘层的表面。在对氧化物进行化学改性后,将两个芯片面对面压在一起,使每个凹陷的 pad 对齐。然后慢慢加热这个夹层,使铜膨胀到间隙处并熔合,从而连接两个芯片。

1、混合键合从两个晶圆或一个芯片和一个晶圆相对开始。配合面覆盖有氧化物绝缘层和略微凹陷的铜垫,铜垫与芯片的互连层相连。

2、将晶圆压在一起,在氧化物之间形成初始键合。

3、然后缓慢加热堆叠的晶圆,使氧化物牢固连接,并使铜膨胀以形成电连接。

a、为了形成更牢固的键合,工程师需要压平氧化物的最后几纳米。即使是轻微的凸起或翘曲也会破坏密集连接。

b、铜必须从氧化物表面凹陷到恰到好处的程度。太多就无法形成连接,太少就会把晶圆推开。研究人员正在研究如何将铜控制到单个原子层的水平。

c、晶圆之间的初始连接是弱氢键。退火后,连接变成强共价键。研究人员预计,使用不同类型的表面,如碳氮化硅,则会有更多位置可以形成化学键,将使晶圆之间的连接更牢固。

d、混合键合的最后一步可能需要数小时,并且需要高温。研究人员希望降低温度,缩短工艺时间。

e、虽然两片晶圆上的铜压在一起形成电连接,但金属的晶粒边界通常不会从一侧穿过另一侧。研究人员正试图使边界上形成大的单晶铜颗粒,以提高电导率和稳定性。

混合键合既可以将一种尺寸的单个芯片连接到一个装满更大尺寸芯片的晶圆上,也可以将两个相同尺寸的整片晶圆键合在一起。当然,后一种工艺比前一种更成熟,部分原因是它在相机芯片中的应用。例如,欧洲微电子研究机构 Imec 的工程师已经创造了一些有史以来最密集的晶圆对晶圆键合,键合距离(或间距)仅为 400 纳米。但 Imec 仅实现了 2 微米的芯片对晶圆键合间距。

这相比当今在生产的先进 3D 芯片有了很大的改进(连接间距约为 9 微米)。而且它比前一代技术有了更大的飞跃:「微凸块」(microbumps)焊料,其间距为几十微米。

「在设备可用之后,将晶圆与晶圆对齐比将芯片与晶圆对齐更容易。大多数微电子工艺都是针对整片晶圆进行的,」法国研究机构 CEA Leti 集成与封装科学负责人 Jean-Charles Souriau 说道。但芯片对晶圆(或芯片到晶圆)技术在高端处理器中可以大放异彩,例如 AMD 的处理器,他们把新技术用于组装其先进 CPU 和 AI 加速器中的计算核心和缓存。

为了推动两种情况下的间距越来越紧密,研究人员专注于使表面更平坦,使绑定的晶圆更好地粘合在一起,并减少整个过程的时间和复杂性。做好这件事可能会彻底改变芯片的设计方式。

WoW,降低间距

最近的晶圆对晶圆(WoW)研究实现了最紧密的间距 —— 约 360 纳米到 500 纳米 —— 这有关在一件事上付出的大量努力:平整度。要以 100 纳米级的精度将两个晶圆结合在一起,整个晶圆必须几乎完全平坦。如果它稍微弯曲或扭曲,整个部分就无法连接。

晶圆的平坦化需要一项称为化学机械平坦化(CMP)的工艺。它对芯片制造至关重要,尤其是对于生产晶体管上方的互连层。

「CMP 是我们必须控制的混合键合关键参数,」Souriau 表示。ECTC 上展示的结果显示 CMP 被提升到了另一个水平,不仅使整个晶圆平坦化,而且还将铜垫之间的绝缘层的圆度降低到纳米级,以确保更好的连接。

其他一些研究人员则致力于确保这些扁平部件能够足够牢固地粘合在一起。他们尝试使用不同的表面材料,例如用碳氮化硅代替氧化硅,并使用不同的方案来化学激活表面。最初,当晶圆或芯片被压在一起时,它们通过相对较弱的氢键固定在一起,人们担心的是,在进一步的加工步骤中它们是否能保持原位。连接之后,晶圆和芯片会慢慢加热,这一过程称为退火,旨在形成更强的化学键。这些键到底有多强 —— 甚至如何弄清楚 —— 是 ECTC 上展示的大部分研究的主题。

最终的键合强度部分来自铜连接。退火步骤使铜在间隙处膨胀,形成导电桥。三星的 Seung Ho Hahn 解释说,控制间隙的大小是关键。膨胀太小铜就不会熔合,膨胀太多晶圆就会被推开。这是纳米级的问题,Hahn 报告了一种新化学工艺的研究,他希望通过一次蚀刻掉一个原子层的铜来实现这一点。

连接的质量也很重要。芯片互连中的金属不是单晶;而是由许多晶粒组成,这些晶粒朝向不同的方向。即使在铜膨胀后,金属的晶粒边界通常也不会从一侧跨越到另一侧。这种跨越应该会降低连接的电阻并提高其可靠性。日本东北大学的研究人员报告了一种新的冶金方案,最终可以生成跨越边界的大型单晶铜。「这是一个巨大的变化,」日本东北大学的副教授福岛誉史(Takafumi Fukushima) 说。「我们现在正在分析其背后的原因。」

ECTC 讨论的其他实验侧重于简化键合过程。一些人试图降低形成键合所需的退火温度(通常约为 300 °C),以尽量减少长时间加热对芯片造成损坏的风险。Applied Materials 的研究人员介绍了一种方法的进展,该方法可以大大减少退火所需的时间 —— 从几小时缩短到仅 5 分钟。

效果出色的 CoW

Imec 使用等离子蚀刻来切割芯片并赋予它们 chamfered corners。该技术消除了可能干扰粘合的机械应力(mechanical stress)。

目前,晶圆上芯片 (CoW) 混合键合对于高级 CPU 和 GPU 制造商来说更有用:它允许芯片制造商堆叠不同尺寸的小芯片,并在将每个芯片绑定到另一个芯片之前对其进行测试,以确保它们不会出现问题。毕竟,一个有缺陷的部件就注定了整个昂贵 CPU 的命运。

但是 CoW 具有 WoW 的所有困难,并且缓解这些困难的选项较少。例如,CMP 旨在平坦化晶圆(flatten wafers),而不是单个芯片。一旦从源晶圆上切下芯片并进行测试,就可以采取更少的措施来提高其键合准备情况。

尽管如此,英特尔的研究人员报告了具有 3 μm 间距的 CoW 混合键合,并且如上所述,Imec 的一个团队成功实现了 2 μm 间距,主要是通过使转移的 die 非常平坦,同时它们仍然附着在晶圆上并在整个过程中保持它们清洁。

两个团队都使用等离子蚀刻来切割芯片,而不是使用常用的锯切法( blade)。与锯切法不同,等离子蚀刻不会导致边缘碎裂,从而产生可能干扰连接的碎片。它还允许 Imec 团队对芯片进行塑形,制作 chamfered corners,以减轻可能破坏连接的机械应力。

ECTC 的几位研究人员表示,CoW 混合键合对于高带宽存储器 (HBM) 的未来至关重要。HBM 是控制逻辑芯片顶部的 DRAM die 堆栈(目前有 8-12 个 die 高)。HBM 通常与高端 GPU 放置在同一封装中,对于处理运行 ChatGPT 等大型语言模型所需的海量数据至关重要。如今,HBM die 采用微凸点(microbump)技术进行堆叠,因此每层之间都有被有机填料包围的微小焊球。

但随着 AI 进一步提高内存需求,DRAM 制造商希望在 HBM 芯片中堆叠 20 层或更多层。微凸点占据的体积意味着这些堆栈很快就会变得太高而无法正确装入 GPU 封装中。混合键合会缩小 HBM 的高度,并且更容易从封装中去除多余的热量,因为层之间的热阻会更小。

在 ECTC 上,三星工程师展示了混合键合可以产生 16 层 HBM 堆栈。三星高级工程师 Hyeonmin Lee 表示:「我认为使用这项技术可以制造 20 层以上的堆栈。」其他新的 CoW 技术也有助于将混合键合引入高带宽存储器。

Souriau 表示,CEA Leti 的研究人员正在探索所谓的自对准(self-alignment)技术。这将有助于确保仅使用化学工艺即可实现良好的 CoW 连接。每个表面的某些部分将被制成疏水性的,而其他部分将被制成亲水性的,从而导致表面会自动滑入到位。

在 ECTC 上,来自东北大学和雅马哈机器人公司的研究人员报告了类似方案的工作,利用水的表面张力来对齐实验 DRAM 芯片上的 5-μm pad,精度优于 50-nm。

混合键合的上限

研究人员几乎肯定会继续减小混合键合连接的间距。台积电 pathfinding systems 项目经理 Han-Jong Chia 表示:「200 nm WoW 间距不仅是可能的,而且是理想的。」台积电计划在两年内推出一种称为背面供电(backside power delivery)的技术。英特尔计划在今年年底实现同样的目标。这项技术将芯片的电力传输互连置于硅表面下方而不是上方。

台积电研究人员计算出,通过排除这些电源管道(conduit),最上层可以更好地连接到较小的混合键合 pad。使用 200 nm 键合 pad 的背面供电传输将大大降低 3D 连接的电容,以至于能量效率和信号速度的测量结果将比使用 400 nm 键合 pad 实现的效果好 8 倍。

晶圆上芯片混合键合比晶圆上晶圆键合更有用,因为它可以将一种尺寸的 die 放置到更大 die 的晶圆上。然而,可实现的连接密度低于晶圆上晶圆键合。

Chia 表示,在未来的某个时候,如果键合间距进一步缩小,「折叠(fold)」电路块可能会变得实用。块内现在的一些长连接可能能够采用垂直捷径,从而加快计算速度并降低功耗。

并且,混合键合可能不限于硅。CEA Leti 的 Souriau 表示:「如今,硅对硅晶圆取得了很大进展,但我们也在寻求氮化镓与硅晶圆和玻璃晶圆之间的混合键合…… 一切皆有可能。」他们甚至提出了量子计算芯片混合键合,其中涉及对准和键合超导铌,而不是铜。

参考内容:https://spectrum.ieee.org/hybrid-bonding返回搜狐,查看更多

相关问答

芯片制造除了用光刻机,还有其他的替代设备吗?怎么样?

目前芯片制造是离不开光刻机的,光刻机就是芯片制造的灵魂,不可取代。而有些人说蚀刻机可以,我只能说他们根本没有搞清楚光刻机和蚀刻机的原理和区别。那为什么...

芯片是用什么机器生产的?

制造芯片的机器叫光刻机。材料是:硅基,碳基或者石墨烯。硅基极限是2nm左右,碳基可以做到1nm以下,硅基转碳基是迟早的事情,其实还有一种材料,比碳纳米管更...

做手机芯片和半导体累不累?

不累。做手机芯片和半导体车间的技术操作工是不累的,在手机芯片和半导体车间工作的时候,一定要特别的注意安全,因为车间有好多设备需要,要注意设备运行期间...

英特尔推出的AI芯片模仿人脑,人工智能机器时代是否就要来临了?

说人工智能时代来临太早了,尽管华为、苹果、英特尔、谷歌等天天都有关于AI芯片,神经引擎的消息传出,走到AI时代的脚步也只是刚刚抬起,落下都不知道在什么时候...

阿特拉芯片用在什么电器上?

阿特拉芯片都是用在汽车、高铁、医疗仪器数控机等……大器械上面的。因为现在是网络化.智能化.信息化时代,很多设备都需要芯片。阿特拉芯片体积比手机芯片大,...

手机芯片是用什么样的机器生产的呢?

芯片制作完整过程包括:芯片设计、晶片制作、封装制作、成本测试等几个环节,其中晶片制作过程尤为的复杂。一、芯片设计1、芯片的HDL设计芯片构...这一点类...

PC级cpu!华为海思盘古M900芯片曝光:2022年中发布-ZOL问答

华为海思的盘古M900芯片是华为公司自主研发的一款PC级处理器。该芯片采用了先进的制程工艺和架构设计,拥有强大的计算和图形处理能力,能够满足用户对于高性能电...

阿尔特拉芯片回收干嘛用?

回收利用。有一些芯片没有损坏,还是能够使用的,可以装在对芯片要求不高的配置上。阿尔特拉自30多年来一直为业界提供最新的可编程逻辑芯片、工艺技术、内核...

上芯片厂看机器要学历吗?

对于去芯片厂参观机器的游客来说,一般不需要学历要求。但是,如果想要深入了解芯片制造的技术和过程,那么有相关学历的背景会更有帮助。比如,学习电子工程、计...

艾利和E150芯片是什么?-ZOL问答

iriverE100是炬力atj2135F做的,而E150是升级版的atj2137N做的,由于这个机器搭载了个音效芯片,另外做了个类似于飞利浦的飞声的SRS2.0音效处理,所以说跟E100相比...

 忻州六中  关于方文山的素颜韵脚诗 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2025  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部