gpu芯片英伟达慌了！芯片产业进入XPU时代“群殴”GPU

发布时间 : 2025-06-24

作者 : 小编

访问数量 : 23

扫码分享至微信

英伟达慌了！芯片产业进入XPU时代“群殴”GPU

股价大幅回调，英伟达遭遇强劲挑战

作者／ IT时报记者贾天荣

编辑／郝俊慧孙妍

英伟达最近有点“烦”。

一个月前的6月18日，这家AI芯片巨头以3.34万亿美元的市值击败微软，登顶世界第一。然而，一个月后，当地时间7月17日盘后，英伟达以6.6%的跌幅居纳斯达克权重股“七巨头”之首，117.99美元的收盘价较历史最高位回调超过12.97%。

事实上，登顶之后，英伟达的股价便一直不太稳定。自2022年AI浪潮兴起之后，如此显著的回调颇为罕见，毕竟作为全球智算芯片的主力厂商，英伟达在人工智能（AI）、高性能计算（HPC）、数据中心以及图形处理单元（GPU）等市场都具有领导地位。

显然，当狂热逐渐冷静之后，GPU的高昂使用成本和高功率能耗等问题逐渐被投资人正视，越来越多GPU之外的AI芯片受到关注。

不久前，2024世界人工智能大会（WAIC2024）RISC-V 和生成式 AI 论坛上，知合计算CEO孟建熠提出，芯片行业正进入“XPU”时代。

IDC数据显示，2023年的AI服务器以GPU服务器占主导，市场份额92%达87亿美元，NPU、ASIC 和 FPGA等非GPU加速服务器以同比49%的增速占据近8%的市场份额，到2028年中国非GPU服务器市场规模将超过33%。

XPU：通用与专用之战

2016年，英伟达将第一台DGX-1超级计算机交付给一家旧金山的初创公司——OpenAI，8年后，这家初创公司推出的ChatGPT 3.5震惊全球，并拉开了人类向通用人工智能冲刺的序幕。

DGX-1整合了8块P100 GPU芯片，算力为170Tflops（每秒170万亿次浮点计算），成功将OpenAI原本需一年完成的大模型训练周期缩短至一个月。

加速的关键原因在于，深度学习需要处理大量非结构化数据和“蛮算”，这对芯片的多核并行运算、片上存储、带宽、低延时访存等提出了较高需求，而GPU拥有大量并行处理单元，能够同时处理多个任务，可以显著加速深度学习模型训练和推理过程，特别是在处理大规模数据集和复杂计算任务时表现尤为突出。

2022年底，随着OpenAI通过ChatGPT印证，算力超过一定“尺度”后，便会形成人工智能的“智慧涌现”，生成式AI对GPU算力的需求陡增，而英伟达则上演了一出“大象转身”的好戏。

只是，对于“尺度定律”（Scaling Law）的担忧和质疑一直存在。

随着行业需求的激增和计算技术的演进，传统的冯·诺依曼架构面临内存墙和功耗墙的挑战，存储与计算的分离导致了数据传输瓶颈，限制了计算系统的整体效能。GPU尽管通用性强且生态完善，但在高能耗和较低的算力利用效率面前，也开始显露疲态。

在中昊芯英创始人、CEO杨龚轶凡看来，GPU的成熟性和广泛的软件支持虽是其优势所在，却也构成了发展的桎梏。他指出，GPU芯片架构和底层逻辑的固定性，阻碍了大规模的优化升级，若要大幅改变，势必破坏已有的CUDA生态，“它的向后兼容性导致GPU的天花板是比较低的。”

杨龚轶凡认为，随着产业发展，行业逐步落地，算力规模增加，在成本考量变得更为重要的前提下，软硬件一体化的设计理念显得愈发关键。这种设计思路强调硬件与软件的协同优化，旨在针对特定算法和应用场景打造定制化的解决方案，从而实现更高的性能和更低的能耗。

在WAIC2024上，中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民直言，“GPU 并不一定是 Transformer 的最优算力芯片，有越来越多的专用芯片正在浮出水面，挑战英伟达最先进的产品，显示出技术生态的多样化。 ”戴伟民认为，未来的AI时代，随着基础大模型市场格局逐步清晰，针对具体应用场景的AI微调将更加普遍，针对特定AI应用的专用芯片将成为主流。

芯片进入“XPU”时代

如戴伟民所言，随着行业对算力需求的不断提高，越来越多的计算平台开始引入多种不同计算单元来进行加速计算。在GPU面临日益明显的瓶颈之际，专用集成电路（ASIC）和特定领域架构（DSA）的芯片正崛起为潜在的挑战者。

近期AI芯片两个备受瞩目的融资消息均与ASIC芯片（专用集成电路）有关。ASIC是一种为特定应用设计的集成电路，它针对某一类运算或功能进行高度优化，因此在执行这类特定任务时效率极高，缺点是一旦设计完成并制造出来，其功能和结构基本不能再改变。

6月26日，美国新兴的芯片创业公司Etched发布其首款ASIC AI芯片——Sohu。这款芯片在运行大模型时展现出了惊人的性能，其速度超英伟达H100的20倍 ，即便是与今年3月才面世的英伟达顶尖芯片B200相比，Sohu也展现出10倍的优越性能。

Sohu芯片的最大突破在于它直接将Transformer架构嵌入芯片内部。据Etched公司负责人Uberti透露，Sohu采用了台积电的先进4纳米工艺制造，不仅在推理性能上远超GPU和其他通用人工智能芯片，更在能耗控制上达到了新高度。

“目前，大模型训练芯片还是以GPU为主，不过NPU和ASIC呈现快速增长的趋势，而且增速超过了GPU。 ”IDC中国分析师杜昀龙在接受《IT时报》记者采访时表示。

某种意义上，NPU（神经网络处理单元）是专为处理机器学习和深度学习任务而设计的ASIC芯片，它的工作原理是利用其专门设计的硬件结构来执行神经网络算法中的各种数学运算，如矩阵乘法、卷积运算等，这些算法是神经网络训练和推理过程的核心操作。与传统的中央处理单元（CPU）和图形处理单元（GPU）不同，由于在硬件层面优化了算法，提升了芯片的整体性能和能效，NPU可以更低的能耗和更高的效率执行这些操作。

记者注意到，不少国内芯片厂商正奋力自研NPU，以把握AI浪潮。今年年初，中星微电子发布了中国首款嵌入式神经网络处理器（NPU）“星光智能一号”的最新成果，该芯片已实现量产。华为自研的AI处理器昇腾910B也是一款NPU，专门设计用于加速人工智能计算任务。

国家重点实验室执行主任张韵东介绍，NPU采用了“数据驱动并行计算”的架构，彻底颠覆了传统的冯·诺依曼架构。这种数据流（Dataflow）类型的处理器，极大地提升了计算能力与功耗的比例，特别擅长处理视频、图像类的海量多媒体数据，使得人工智能在嵌入式机器视觉应用中可以大显身手。

当然，“群殴”GPU的还有更多XPU。

由谷歌TPU（张量处理单元）发明者之一Jonathan Ross创立的Groq，于今年2月推出ASIC芯片LPU（语言处理器），宣称该LPU推理性能是英伟达GPU的10倍，成本仅为其十分之一。

谁将成为GPU最终挑战者？

“我们认为未来AI赛道，一半市场是GPU，一半市场是TPU。 ”杨龚轶凡曾在 Google 深度参与 Google TPU 2/3/4 的设计与研发，2018年，杨龚轶凡回国成立中昊芯英，专注于国产TPU芯片的研发。据其介绍，目前中昊芯英是国内唯一掌握 TPU 架构训推一体 AI 芯片核心技术的公司，公司自研的 TPU 人工智能训练芯片“刹那®”在处理 AI 计算场景时的算力性能是英伟达A100的近1.5倍，在完成相同训练任务量时的能耗降低 30%，单位算力成本仅为英伟达A100的42%。

TPU是一款DSA架构的AI计算芯片，它由谷歌自己设计，并专门用于机器学习工作负载。业界对于TPU的关注，始于Google在2013年的秘密项目。彼时，Google研发 AI机器学习算法芯片，并用于云计算数据中心，取代英伟达 GPU。2016年，AlphaGo击败了韩国棋手李世石，其“大脑”背后便是48个TPU。

相较于其他XPU，TPU最大的优势是和目前LLM大模型的底层架构Transformer同出一源。

被称为人工智能领域“圣杯”的Transformer，源自2017年11月由Google AI研究人员发表的一篇论文《Attention is All You Need》，该模型采用了注意力机制来处理序列数据，从而解决了传统的RNN（循环神经网络）模型在长距离依赖问题上的困境。

尽管真正让Transformer成为全球大模型基石的是OpenAI，但谷歌在基于Transformer架构研发的软硬一体化方案上，始终独具优势。

今年5月，Google发布了第六代TPU，称为Trillium，并表示将于今年晚些时候交付。Google表示，第六代Trillium芯片的计算性能比TPU v5e芯片提高4.7倍，能效比v5e高出67%。Gemini 1.5 Flash、Imagen 3和Gemma 2等大模型，都经过 TPU 训练并提供服务。

从谷歌发布的信息来看，基于TPU训练的大模型效果优异。根据Google的基准测试结果，Gemini Ultra版本在许多测试中都表现出了“最先进的性能”，甚至在大部分测试中完全击败了OpenAI的GPT-4。

“你可以这么理解，TPU是通用的Transformer架构AI芯片。”杨龚轶凡解释，TPU不仅能支持所有Transformer模型，也能支持所有深度学习模型，但它的通用性只体现在基于Transformer的AI赛道里，但除此之外，在其他赛道的运算效果可能远远不如GPU。

无论如何，基于AI芯片的通用和专用之战已经开打，在这场新的战争中，看似“风光无限”的英伟达危机四伏，全世界的人工智能企业在“贪婪”地抢购GPU的同时，纷纷“下注”自研芯片。

据不完全统计，包括Groq、特斯拉的Dojo 2、AWS的Trainium、OpenAI新做的芯片等在内，美国现在有数十家企业和初创公司都在推动类TPU架构的芯片研发和应用。业内人士也表示，大多数厂商的ASIC架构芯片都只支持少数Transformer模型，在专用性上钻得更深，但通用性差一些，Sohu便是如此。

国产AI芯片的XPU梦想

XPU打败CPU和GPU的梦想早已有之。

早在2020年，ASIC便被认为是下一代AI芯片主流架构，针对特定任务专门设计框架，ASIC芯片能在快速提升算力的同时降低能耗。最近刚被软银收购的英国AI独角兽Graphcore为AI处理器开发的新型智能处理单元（IPU），更是一度被视作可以与英伟达“掰手腕”的秘密武器。

然而，一款芯片从设计到最后大规模生产，是一个漫长的过程，从研发到年产1000片至少需要五年时间，再到年产100万片则需要更久，这意味着一家AI芯片公司从成立到成熟量产至少需要十年的时间，在任何一个阶段都可能全军覆没。

而英伟达愈发成熟的CUDA生态，让产业链根本没有大规模转移的动力。这也是为何时至今日，英伟达依然在全球数据中心市场占据85%以上份额的根本原因。

但对于国产芯片厂商而言，近两年逐渐落下的“科技铁幕”却从另一层面打破了英伟达的“软性封锁”，当英伟达高端算力芯片H系列和B系列无法进入中国时，自研成为唯一的出路，各种芯片架构也呈现出百花齐放的繁荣。

不久前的WAIC 2024上，开源的RISC-V架构被认为是非常适合AI的架构。摩尔线程也宣称具备了万卡万P万亿参数通用算力集群能力。

中昊芯英TPU人工智能训练芯片“刹那®”也于去年成功量产，并已在全国多地千卡集群规模的智算中心交付落地。据介绍，“刹那®”以1024 片芯片高速片间互联的能力构建了大规模智算集群“泰则®”，系统集群性能远超传统 GPU 数十倍，可支撑超千亿参数AIGC大模型训练与推理。但杨龚轶凡也坦言，TPU芯片在目前国内的认知普及程度还比较低，很大程度上是因为现在研发并对外提供类TPU芯片的大多是初创公司，谷歌TPU的大集群也并未对外开放，导致客户无法大规模采购和使用这类产品。与互联网服务的即时可扩展性不同，硬件产品的生产需要时间和空间，无法立即响应市场需求的激增。

记者了解到，谷歌可能在今年底停止外部AI算力芯片的采购，转而完全依赖自研的TPU。谷歌的算力总量，结合自研TPU和先前的芯片采购，预计将在今年达到全球算力总量的25%。

“TPU这个赛道会变得越来越重要。”杨龚轶凡认为，未来在整个大模型的AI赛道里面，TPU最有机会成为这个赛道的 “X86”。

杜昀龙也告诉《IT时报》记者，AI 大模型市场推动了训练芯片的需求。推理芯片对技术的要求相对较低，并且推理也是将模型落地实现变现的途径。在大环境的影响下，同时有政策扶持的情况下，国产芯片厂商遍地开花，从不同技术维度，行业维度都有突破性发展。

对于相对小规模的芯片企业来说，开发推理芯片，针对细分行业的应用场景，能给企业带来发展。对于技术过硬，资金雄厚的企业来说，高性能的训练芯片有很大空缺，也是未来发展的良机。

排版／季嘉颖

图片／英伟达 Etched 中昊芯英东方IC

来源／《IT时报》公众号vittimes

E N D

全球最强GPU芯片已量产、下一代Rubin曝光，老黄继续打破摩尔定律

机器之心报道

机器之心编辑部

黄仁勋：我家的 GPU 芯片一年一更新，其他家怎么追？

昨晚，英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。

经典皮肤（皮衣）老黄亮相。

在会上，黄仁勋分享了有关 AI 芯片及架构、加速计算、AI 理解物理世界、机器人的成果和洞见。

量产版 Blackwell 亮相

下一代 AI 平台 Rubin 两年后到来

今年 3 月，英伟达在其一年一度的 GTC 大会上官宣了 2080 亿晶体管的 Blackwell 芯片。它是英伟达首个采用 MCM（多芯片封装）设计的 GPU，在同一个芯片上集成了两个 GPU。

近三个月过去了，Blackwell 芯片发展到了哪一步了？

老黄现场果然没让人失望，拿出了最新量产版的 Blackwell。他表示，这款当今世界上最强大的 GPU 已经投入了生产。

黄仁勋称，短短八年时间，英伟达使得 AI 算力从 2016 年 Pascal 的 19 TFLOPS 提升到了 2024 年 Blackwell 的 20000 TFLOPS，整整提升了 1000 倍。这一速度几乎超越了摩尔定律在最佳时期的增长。

AI 算力提升的同时，成本也在逐年下降。

黄仁勋以训练 GPT-4（1.8 万亿参数）为例，八年时间，该模型的能耗从 2016 年的 1000+GWh 下降到了如今的 3GWh，下降了 350 倍。这里他甚至还为 token 定了一个中文译名 —— 词元。

集成了 Blackwell 芯片的最新 DGX 超算系统在各方面都实现了质的提升。

与上一代 Hopper 系统相比，Blackwell 系统的 NVLink 域集成 72 个 GPU、性能提升了 9 倍，NVLink 带宽增加了 18 倍，AI 算力提升了 45 倍，供能提高了 10 倍。

此外，黄仁勋还公开了 Blackwell 后三代芯片路线图，即 Blackwell Ultra（2025 年）、Rubin（2026 年）和 Rubin Ultra（2027 年）。这也是下一代 AI 平台 Rubin 首次亮相。

黄仁勋表示，英伟达将保持一年一次的更新节奏，确保所有产品实现 100% 架构兼容。不过，他并没有透露关于 Rubin 的更多细节。

可以看到，英伟达推出全新 GPU 的速度始终跑在了其他公司的前头。有人对此表示，由于缺少强有力的竞争对手，现在英伟达只能与摩尔定律展开竞争了。

图源：X@Sentdex

当然，英伟达这些年的成功在其股票市值上得到了很好地体现。最近几天的市值一度达到了 2.8 万亿美元，与市值第一的苹果之间的差距越来越小。

游戏助手 Project G-Assist

Project G-Assist 是一个由 RTX 驱动的 AI 助手，为 PC 游戏和应用提供上下文感知的帮助。

一般来讲，PC 游戏拥有广阔的世界和复杂的机制，即使是高级玩家也会感到挑战。Project G-Assist 旨在让玩家能够方便地获取游戏和系统方面的知识。

Project G-Assist 可以接收玩家的语音或文本输入，同时还可以获取游戏窗口中的快照。这些快照被输入到 AI 视觉模型中，从而提供上下文感知和特定于应用程序的理解。之后 LLM 输出一个富有洞察力和个性化的响应 —— 要么是文本，要么是 AI 语音。

为了展示 Project G-Assist 的潜力，英伟达还和 Studio Wildcard 展开合作，上新了一系列演示：例如通过按下快捷键或使用唤醒短语，AI 助手可以帮助玩家解答问题。

AI 助手还能建议玩家是否应该避开游戏中的恐龙，或者提供建议来驯服特定的野兽。

此外，Project G-Assist 在性能调优方面也非常有用。

通过一个简单的提示，Project G-Assist 可以评估玩家的系统配置和性能，并立即调整以获得最佳体验。

通过一个简单的提示，Project G-Assist 可以评估您的系统配置和性能，并立即进行调整以获得最佳体验。

AI 助手还能够跟踪并绘制帧率、功率使用、PC 延迟以及其他硬件统计数据的图表，并在被提示时提出改善这些指标的方法。

NVIDIA NIM 彻底改变了模型部署方式

现在，全球 2800 万开发者都可以借助 NVIDIA NIM 轻松地创建生成式 AI 应用。NIM 是一种推理微服务，通过以经过优化的容器的形式提供模型，以部署在云、数据中心或工作站上。

NIM 还能帮助企业实现基础设施投资的效果最大化。例如，与未使用 NIM 的情况相比，在 NIM 中运行 Meta Llama 3-8B 所能生成的加速基础设施 AI token 可以提升 3 倍。

Cadence、Cloudera、Cohesity、DataStax、NetApp、Scale AI 和新思科技等近 200 家技术合作伙伴正将 NIM 集成到他们的平台中，加快生成式 AI 部署到特定领域应用中的速度，例如 copilots、代码助手、数字人虚拟形象等。从 Meta Llama 3 开始，在 Hugging Face 上现已开始提供 NIM。

NVIDIA 机器人技术

NVIDIA 正在引领价值 50 万亿美元的工业数字化变革，其通过开发者计划提供对 NIM 的访问权限，以促进 AI 创新。

黄仁勋展示了 Foxconn 如何利用 NVIDIA Omniverse、Isaac 和 Metropolis 创建数字孪生，通过结合视觉 AI 与机器人开发工具来实现增强的机器人设施。

NVIDIA Isaac 平台为开发者构建 AI 机器人提供强大的套件，包括由 AI 模型以及 Jetson Orin、Thor 等超级计算机驱动的 AMR、工业机械臂和人形机器人。

「机器人和物理 AI 正在成为现实，而不仅是出现在科幻小说。这真的令人兴奋，」黄仁勋补充道。

全球电子行业领导企业正在将 NVIDIA 自主机器人技术集成到他们的工厂中，利用 Omniverse 中的模拟功能来测试和验证物理世界的新一代 AI。全球 500 多万台预编程机器人也在此行列中。

「机器人将遍布所有工厂。工厂将实现对机器人的统筹，而这些机器人将制造新的机器人产品，」黄仁勋解释道。

gpu芯片有多大?

现代GPU芯片的尺寸通常在100毫米到200毫米之间,而且它们的面积也很大。例如,英伟达公司的最新GPU芯片Ampere的尺寸约为334毫米x267毫米,面积为6,886平方毫米...

显卡用的芯片是GPU吗?

是的,显卡使用的芯片被称为GPU,即图形处理器。GPU是显卡的核心组件,负责处理图形和图像数据,执行复杂的图形计算和渲染任务。它具有高度并行的计算能力,能够...

浪潮信息属于gpu芯片吗?

浪潮信息是一家提供云计算和大数据服务的公司,它的业务范围包括服务器、存储、网络、云计算等方面。虽然浪潮信息也涉及到一些与GPU相关的产品和解决方案,但...

GPU芯片决定了什么的性能和档次?

GPU英文全称GraphicProcessingUnit,中文翻译为“图形处理器”。GPU是显示卡的“大脑”,它决定了该显卡的档次和大部分性能,在手机主板上,GPU芯片一般都是紧...

ai芯片和gpu的区别?

两者主要区别如下:1.GPU主要是处理图像计算,它为大量并行工作的图像运算提供了一种廉价的方法,但缺点是比较高的功率。2.AI芯片又名AI加速器或计算卡原理AI...

CPU，GPU芯片组的区别?

您好,CPU(中央处理器)和GPU(图形处理器)是计算机中的两种不同类型的芯片组。1.功能区别:-CPU主要负责处理计算机的通用指令和控制任务,包括算术运算、...

GPU芯片原理?

显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。gpu由于历史原因,是为了视频游戏而产生的(...

cpu.gpu两芯片是什么型?

CPU和GPU是两种不同的芯片,不属于同一种型号。CPU是中央处理器,主要负责计算机的基本运算和控制;GPU是图形处理器,主要负责图形计算和显示处理。虽然它们都是...

为什么显卡要比CPU贵很多?零件的问题吗?说说显卡贵在什么地...

2、CPU是32nm制程,而GPU是40nm制程,即便晶体管数量相同,同样大小的晶圆CPU能切割出更多的核芯(DIE),因此成本也更低。3、CPU是一颗芯片,周边电路的成本都在主板...

华为有自己的gpu芯片吗?

华为拥有自己的GPU芯片,名为麒麟GPU。这是一款专门为华为手机设计的图形处理器,用于提供更高效的图像渲染和图形性能。麒麟GPU采用华为自主研发的架构和技术...

爱新觉罗胤礼杜高狗

pci接口芯片全网最全面的PCIe 50 SSD主控芯片汇总！你还不来看看吗？

5脚贴片电源芯片六角贴片开关电源芯片轻触按键开关IC 长按15秒延时开关芯片