4万亿个晶体管,单机可训练比GPT4大10倍的模型,最大的芯片面世
机器之心报道
刚刚,芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息,「我们发布了世界上最快的芯片,该芯片拥有高达 4 万亿个晶体管。」
一直以来,Cerebras 一直在往「大」的芯片方面发展,此前他们发布的晶圆级引擎(Wafer Scale Engine,WSE-1)面积比 iPad 还大。第二代 WSE-2 虽然在面积上没有变化,但却拥有惊人的 2.6 万亿个晶体管以及 85 万个 AI 优化的内核。
而现在推出的 WSE-3 包含 4 万亿个晶体管,在相同的功耗和价格下,WSE-3 的性能是之前记录保持者 WSE-2 的两倍。
此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的,基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力,通过 90 万个人工智能优化的计算核心,提供每秒 125 petaflops 峰值 AI 性能(1 petaflops 是指每秒 1,000,000,000,000,000(1 万亿)次浮点运算)。
WSE-3 呈正方形,边长为 21.5 厘米(面积为 46225mm^2),几乎是使用了整个 300 毫米硅片来制造一个芯片。这么看来,凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片了。
WSE-3 大尺寸到底是个什么概念,在将其与 Nvidia H100 GPU 进行比较后发现,前者大了 57 倍,内核数量增加了 52 倍,芯片内存增加了 800 倍,内存带宽增加了 7000 倍,结构带宽增加了 3700 倍以上。而这些都是芯片实现高性能的基础。
图源:https://spectrum.ieee.org/cerebras-chip-cs3
下图展示了 WSE-3 的特点:
WSE-3
前两代晶圆级引擎的一些参数。图源:https://twitter.com/intelligenz_b/status/1768085044898275534
配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型,这比 OpenAI 的 GPT-4 等顶级生成式 AI 模型的参数高出一个数量级(据传有 1 万亿个参数)。这么看来, 具有 24 万亿个参数的模型在一台机器上运行成为可能。
图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/
CS-3 拥有高达 1.2 PB 的巨大内存系统,旨在训练比 GPT-4 和 Gemini 还大 10 倍的下一代前沿模型。24 万亿个参数的模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。
CS-3 专为满足企业和超大规模需求而构建。紧凑的四系统配置可以在一天内微调 70B 模型,同时使用 2048 个系统进行全面扩展,Llama 70B 可以在一天内从头开始训练,这对于生成式 AI 来说是前所未有的壮举。
最新的 Cerebras 软件框架为 PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉 transformer、MoE 和扩散模型)提供原生支持。Cerebras 仍是唯一能为动态和非结构化稀疏性提供本机硬件加速的平台,可以将训练速度提高 8 倍。
「八年前,当我们开始这一旅程时,每个人都说晶圆级处理器是一个白日梦。我们非常自豪能够推出第三代突破性人工智能芯片,并且很高兴将 WSE-3 和 CS-3 推向市场,以帮助解决当今最大的人工智能挑战」,Cerebras 首席执行官兼联合创始人 Andrew Feldman 如是说道。
Cerebras 联合创始人兼首席执行官 Andrew Feldman
卓越的功耗效率和软件易用性
由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。CS-3 性能翻倍,功耗却保持不变。
CS-3 具有卓越的易用性。相比于大模型常用的 GPU,CS-3 需要的代码减少 97%,并且能够在纯数据并行模式下训练从 1B 到 24T 参数的模型。GPT-3 大小的模型在 Cerebras 上实现只需要 565 行代码(而 GPU 需要 20,507 行 )—— 这是行业纪录。
图源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/
目前,Cerebras 已经积压了大量来自科技企业、科研机构的订单。美国阿贡国家实验室负责计算、环境和生命科学的实验室副主任 Rick Stevens 称赞道:「Cerebras 的大胆精神将为人工智能的未来铺平道路。」
参考链接:
https://www.zdnet.com/article/ai-startup-cerebras-unveils-the-largest-chip-yet-for-generative-ai/
https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/
科学家成功研发可弯曲的非硅柔性芯片,成本不到1美元
IT之家 9 月 30 日消息,英国芯片制造商 Pragmatic Semiconductor 开发了一种“采用柔性技术,在弯曲状态下仍能完全运行”的 32 位微处理器。
这款名为 Flex-RV 的处理器不是为了赢得性能基准测试,而是创造一种新的弯曲计算解决方案 ,以适应非传统的应用场景。尽管如此,其仍然包含一个可编程的机器学习硬件加速器和 RISC-V 指令,因此可以完成一些简单的 AI 任务。
据IT之家了解,与传统的硅基处理器和计算设备不同,这款基于开源 RISC-V 架构的微处理器使用铟镓锌氧化物(IGZO)晶体管,分层放置在聚酰亚胺上,IGZO 通常用于平板显示器和触摸屏设备。Flex-RV 处理器甚至可以缠绕在铅笔上 ,工作频率为 60 kHz,功耗低于 6 毫瓦。
Flex-RV 虽然只有 12600 个逻辑门,但为新一代嵌入式应用提供动力已经足够,例如智能绷带、柔性电子设备和交互式包装。RV32E Flex-RV 芯片可编程、可弯曲且价格合理,其主要应用场景是那些传统硅材料无法应用的日常设备。
让芯片弯曲不仅仅是为了好玩,真正的亮点是生产成本低,据悉其生产成本不到 1 美元 。IGZO 制造不需要硅所需的洁净室级别的精度,从而削减了所有主要的生产开销。而且由于其不会在压力下破碎,Flex-RV 也不需要硅芯片昂贵的封装,廉价、坚固和适应性强使其成为快消品、一次性医疗产品等的完美选择。
相关成果已发表在《Nature》上。
相关问答
做手机芯片的机器?
最主要的是光刻机,还有蚀刻机等。制造芯片所需要的设备包含了光刻机、等离子蚀刻机、离子注入机、反应离子刻蚀系统、单晶炉、晶圆划片机、晶片减薄机和气相...
芯片制造除了用光刻机,还有其他的替代设备吗?怎么样?
目前芯片制造是离不开光刻机的,光刻机就是芯片制造的灵魂,不可取代。而有些人说蚀刻机可以,我只能说他们根本没有搞清楚光刻机和蚀刻机的原理和区别。那为什么...
芯片中需要的镓和锗多吗?
1.需要的镓和锗是相对较多的。2.这是因为镓和锗是半导体材料,广泛应用于芯片制造中。芯片是现代电子设备的核心组成部分,需要使用大量的镓和锗来制造。3.镓...
华为设计芯片,联发科生产芯片,谁难度大?为什么?
首先问题有误,华为和联发科都是设计芯片的,目前代工制造芯片的是台积电,三星以及国内的中芯,华虹等。说起难度,应该是制造更难一些。国内各类设计企业众多...
芯片封装都能用到啥机器?
用到固晶、塑料封装机等设备。芯片封装根据所用材料的不同,半导体器件的封装形式分为金属封装、陶瓷封装和塑料封装,目前主要是塑料封装机。半导体封装设备一...
2纳米芯片上市公司有几家?
2纳米芯片上市公司目前有IBM、三星及台积电三家。国际商业机器公司(IBM)发布号称全球首创的2纳米芯片制造技术,该制程的芯片上用了一种叫GGA(GateAllAr...
做手机芯片和半导体累不累?
不累。做手机芯片和半导体车间的技术操作工是不累的,在手机芯片和半导体车间工作的时候,一定要特别的注意安全,因为车间有好多设备需要,要注意设备运行期间...
中科院光电技术研究所的超分辨光刻设备,是否可以用于手机计算机等芯片的制造?
答案:不能!详细原因,我复制了从我回答的另外一个问题的答案过来,仅供参考。要想清楚了解两者区别,我们先来分别看一下国内首台超分辨率光刻机的一些特性,...
三星研发手机芯片的能力有多强?
终于!三星猎户座处理器也发大招了,年度四大旗舰芯片终于凑齐,这款抢在CES2018前夕发布的三星Exynos9810引起了轩然大波,其性能表现能否超越苹果A11、高通骁...
车机芯片性能排行
[最佳回答]骁龙820A是QualcommTechnologies最新的汽车级片上系统SoC——骁龙820A汽车处理器,提供支持机器智能的可扩展的下一代信息娱乐系统。与市面上搭载高...