芯片元器件
HOME
芯片元器件
正文内容
芯片机器 史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
发布时间 : 2024-10-06
作者 : 小编
访问数量 : 23
扫码分享至微信

史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造

机器之心报道

编辑:泽南、杜伟

生成式 AI 推理性价比是 GPU 的 140 倍。

大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。

现在,终于有一家公司带着自己的 AI 芯片来叫板了。

今天凌晨,科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token,比 H100 服务器(23,000 个 token / 秒)多 20 倍,比 B200 服务器(约 45,000 个 token / 秒)多 10 倍。

Sohu 是世界第一款专用于 Transformer 计算的芯片,历时两年打造。

作为一块 ASIC(专用集成电路),Sohu 把对于 transformer 架构的优化硬化在芯片中,无法运行大多数「传统」的 AI 模型:如为 Instagram 广告提供支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运行 CNN、RNN 或 LSTM。

但另一方面,对于 transformer 来说,Sohu 就是有史以来最快的芯片,与其他产品之间是量级的区别。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。

最近一段时间,由于摩尔定律放缓,GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3,都不约而同的使用「二合一」的方式提升性能,功耗也翻倍了。

从 2022 年到 2025 年,AI 芯片的性能并没有真正变得更好,而是变得更大了。

但如果大模型广泛使用 Transformer 架构,追求专业化或许是提高性能的好方向。‍

作为一个新兴领域,AI 模型的架构过去变化很大。但自 GPT-2 以来,最先进的模型几乎都在使用 Transformer,从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自动驾驶所需的模型。

Etched 给我们算了一笔账:芯片项目的成本为 5000 万至 1 亿美元,需要数年时间才能投入生产。另一方面,当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时,使用专用芯片是不可避免的。在这种产业规模下,1% 的改进就能撬动硬件架构的更新。

速度超 H100 20 倍,FLOPS 利用率超 90%

作为世界上首款 transformer ASIC(应用型专用集成电路)芯片,一台集成了 8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即,Sohu 的运行速度是 H100 的 20 多倍。

具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。

针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

此外,对于 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调整。

由于 Sohu 仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。

Sohu 为何能输出更多 FLOPS?

英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 计算能力,并且没有稀疏性。这是当前最先进的芯片,而 2025 年推出的 GB200 将在计算能力上提升 25%,支持 1250 TFLOPS。

由于 GPU 的绝大部分区域都是可编程的,因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明:

构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管,这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心,每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们:H100 有 27 亿个晶体管用于张量核心。

但是,H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),那么没有比这更好的了。

而通过仅运行 transformer,Etched 可以让 Sohu 芯片输出更多的 FLOPS,且需要降低精度或稀疏性。

内存带宽也不是瓶颈

实际上,对于像 Llama 3 这样的模型,情况并非如此。

我们以英伟达和 AMD 的标准基准为例:2048 个输入 token 和 128 个输出 token。大多数 AI 产品的 prompt 更长,比如最新的 Claude 聊天机器人在系统 prompt 中拥有 1000+tokens。

在 Sohu 上,推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次,并在 batch 的每个 token 中重复使用。通常来说,LLM 输入是计算密集型的,而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时,工作负载变成了高度计算密集型。

以下为 LLM 连续 batching 处理的示例,这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。

我们可以扩展相同的技巧,从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 token,以及用于 127 个不同序列的 127 个输出 token。

如果这样做了,则每个 batch 需要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP,而仅需要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽需要的计算量多得多:H200 需要 6.8 PFLOPS 的计算才能最大化其内存带宽。这还是利用率为 100% 的情况,如果利用率仅为 30%,则需要 3 倍以上的内存。

Sohu 拥有了更多的计算能力且利用率非常高, 因此可以运行巨大的吞吐量,而不会出现内存带宽瓶颈。

软件如何工作

在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。

而 Sohu 只运行 transformer,因此只需要为 transformer 编写软件。

大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你真正需要的。

虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。

Etched 让我们不需要再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。

创业团队:哈佛辍学生领衔

Etched 的 CEO Gavin Uberti 告诉记者:「如果未来 Transformer 不再是主流,那我们就会灭亡。但如果它继续存在,我们就会成为有史以来最大的公司。」

打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造专用于 AI 大模型的芯片。

在 Sohu 芯片发布的同时,Etched 也宣布已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。

不过对于占据超过 80% AI 芯片市场份额的英伟达来说,1.2 亿美元只相当于它半天的收入。

「我们如此兴奋的原因,选择辍学的原因,以及我们召集团队,投身芯片项目的原因在于 —— 这是最重要的工作,」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」

Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场。

未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?

参考内容:

https://www.etched.com/announcing-etched

https://twitter.com/Etched/status/1805625693113663834

https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html

https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/

4万亿个晶体管,单机可训练比GPT4大10倍的模型,最大的芯片面世

机器之心报道

编辑:小舟、陈萍

刚刚,芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息,「我们发布了世界上最快的芯片,该芯片拥有高达 4 万亿个晶体管。」

一直以来,Cerebras 一直在往「大」的芯片方面发展,此前他们发布的晶圆级引擎(Wafer Scale Engine,WSE-1)面积比 iPad 还大。第二代 WSE-2 虽然在面积上没有变化,但却拥有惊人的 2.6 万亿个晶体管以及 85 万个 AI 优化的内核。

而现在推出的 WSE-3 包含 4 万亿个晶体管,在相同的功耗和价格下,WSE-3 的性能是之前记录保持者 WSE-2 的两倍。

此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的,基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力,通过 90 万个人工智能优化的计算核心,提供每秒 125 petaflops 峰值 AI 性能(1 petaflops 是指每秒 1,000,000,000,000,000(1 万亿)次浮点运算)。

WSE-3 呈正方形,边长为 21.5 厘米(面积为 46225mm^2),几乎是使用了整个 300 毫米硅片来制造一个芯片。这么看来,凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片了。

WSE-3 大尺寸到底是个什么概念,在将其与 Nvidia H100 GPU 进行比较后发现,前者大了 57 倍,内核数量增加了 52 倍,芯片内存增加了 800 倍,内存带宽增加了 7000 倍,结构带宽增加了 3700 倍以上。而这些都是芯片实现高性能的基础。

图源:https://spectrum.ieee.org/cerebras-chip-cs3

下图展示了 WSE-3 的特点:

WSE-3

前两代晶圆级引擎的一些参数。图源:https://twitter.com/intelligenz_b/status/1768085044898275534

配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型,这比 OpenAI 的 GPT-4 等顶级生成式 AI 模型的参数高出一个数量级(据传有 1 万亿个参数)。这么看来, 具有 24 万亿个参数的模型在一台机器上运行成为可能。

图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

CS-3 拥有高达 1.2 PB 的巨大内存系统,旨在训练比 GPT-4 和 Gemini 还大 10 倍的下一代前沿模型。24 万亿个参数的模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。

CS-3 专为满足企业和超大规模需求而构建。紧凑的四系统配置可以在一天内微调 70B 模型,同时使用 2048 个系统进行全面扩展,Llama 70B 可以在一天内从头开始训练,这对于生成式 AI 来说是前所未有的壮举。

最新的 Cerebras 软件框架为 PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉 transformer、MoE 和扩散模型)提供原生支持。Cerebras 仍是唯一能为动态和非结构化稀疏性提供本机硬件加速的平台,可以将训练速度提高 8 倍。

「八年前,当我们开始这一旅程时,每个人都说晶圆级处理器是一个白日梦。我们非常自豪能够推出第三代突破性人工智能芯片,并且很高兴将 WSE-3 和 CS-3 推向市场,以帮助解决当今最大的人工智能挑战」,Cerebras 首席执行官兼联合创始人 Andrew Feldman 如是说道。

Cerebras 联合创始人兼首席执行官 Andrew Feldman

卓越的功耗效率和软件易用性

由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。CS-3 性能翻倍,功耗却保持不变。

CS-3 具有卓越的易用性。相比于大模型常用的 GPU,CS-3 需要的代码减少 97%,并且能够在纯数据并行模式下训练从 1B 到 24T 参数的模型。GPT-3 大小的模型在 Cerebras 上实现只需要 565 行代码(而 GPU 需要 20,507 行 )—— 这是行业纪录。

图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

目前,Cerebras 已经积压了大量来自科技企业、科研机构的订单。美国阿贡国家实验室负责计算、环境和生命科学的实验室副主任 Rick Stevens 称赞道:「Cerebras 的大胆精神将为人工智能的未来铺平道路。」

参考链接:

https://www.zdnet.com/article/ai-startup-cerebras-unveils-the-largest-chip-yet-for-generative-ai/

https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

相关问答

做手机芯片的机器?

最主要的是光刻机,还有蚀刻机等。制造芯片所需要的设备包含了光刻机、等离子蚀刻机、离子注入机、反应离子刻蚀系统、单晶炉、晶圆划片机、晶片减薄机和气相...

做手机芯片的机器叫什么?

光刻机是芯片制造的关键设备,ASML市占率高达84%占据垄断地位,近期光刻机国产化进程加快。光刻机是一种投影曝光系统,光刻过程是将掩膜板上的图形曝光至预涂了...

利扬芯片有机器生产吗?

没有机器生产。利扬芯片没有机器生产芯片,也就是说利扬芯片没有光刻机生产芯片。利杨芯片本身是为芯片做测试的,是属于芯片制造的后道工序,是不需要光刻机的...

制造手机芯片的机器?

制造手机芯片的关健设备是光刻机制造手机芯片的关健设备是光刻机

奔图芯片适合全机器吗?

奔图芯片适合全机器。奔图6506nw用电源芯片,它的参数输出功率12瓦,主频速率32b,输入电压36伏,输入功率52瓦,雅迪u6电源芯片能够通过对用户可能拍摄场景的预...

大疆无人机的芯片是哪国的?

4、主控芯片:目前只要使用ST公司的ARM芯片以及高通/INTEL提供的无人机专用CPU。5、摄像头:目前国产摄像头技术得到高速发展了,但是,主流的无人机依然配套的...

芯片装片的步骤及方法?

芯片装片的主要步骤包括:磨片:将芯片的反面(非布线的一面)根据工艺标准,客户要求或一些特殊要求磨去一层,使芯片的厚度达到要求。划片:用划片刀(或其它手...

除了光刻机还有其他设备可以生产芯片吗?

根据除了光刻机,还有其他设备可以生产芯片。1,因为在芯片制造过程中,除了光刻机用于图案的转移,还需要其他设备来完成不同的工序,如清洗设备、离心机、蒸发...

赛灵思x45芯片什么机器上有?

答:赛灵思x45芯片自动点钞机机器上有。自动点钞机是一个高科技产品,它具有记忆功能、防伪功能和自动计算功能等。点钞机的核心部件非常高级,应该安装了赛灵思...

手机芯片加焊技术?

最后一定注意:焊接时用大口风枪,不要用小口风枪,小口风枪风力和热量集中,易损伤芯片。焊接多了,自己自然会摸索出一套好经验。祝你成功!待锡膏熔化,用镊...

 方磊个人资料简介  韩东亚 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2024  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部