芯片供应商
HOME
芯片供应商
正文内容
国产gpu芯片公司 国产GPU显卡厂商20家:谁能替代AMD,NVIDIA?
发布时间 : 2024-10-06
作者 : 小编
访问数量 : 23
扫码分享至微信

国产GPU显卡厂商20家:谁能替代AMD、NVIDIA?

昨天,网上突然传出有关于AMD、NVIDIA可能要断供高端GPU芯片的消息。

很多人表示,国产GPU的机会来了,这可能是危机,但也是机遇,那么问题来了,国内GPU厂商们目前发展到什么程度了,究竟有谁能够替代AMD、NVIDIA?

先说说常见的GPU分类,按照用途,可以将GPU分为二种,分别是AI/FP和渲染。

AI是用于深度学习的加速卡,而FP是用在超算上的加速卡,这两类可以归为一类,都属于高性能的加速卡。至于渲染类的就是普通的大家熟悉的显卡,用于游戏、以及各种图形化应用的。

目前国内比较有名的主流GPU厂商,有如下20家(以下不是排名,只是罗列),我们来看一看,这20家国产GPU厂商,究竟谁能够替代AMD\NVIDIA。

资料来源:芯榜

先说AI、FP这两个方面,这个方向的GPU,需要的高性能,高算力。目前国产GPU厂商中,在这一方面发力的主要有璧仞科技、芯瞳半导体、天数智芯、沐曦集成电路等。

但不黑不吹,这些厂商的GPU,与AMD\NVIDIA的GPU相比,还是有差距的。不过其中有一个特例,那就是璧仞科技,上个月发布了一款壁仞 100,当时宣称是打破了全球的算力记录,对标的就是NVIDIA最高端的GPU芯片。

不过这款显卡,目前还没有上市被使用,所以性能还不清楚,如果能够顶上来,那么高端AI、FP方面的GPU也就不愁了。

至于在渲染这一方面,国产GPU厂商还是比较多的,比如有景嘉微、芯动科技、摩尔线程这些,这些厂商发布的显卡,其性能,与AMD\NVIDIA发布的显卡相比,可能处于中低端水平,有个3、5年或更长时间的差距。

所以真要说起来,要全面取代AMD\NVIDIA的GPU,不管是AI/FP还是渲染,目前还是不现实的。

不过从中、低端开始,再慢慢向高端渗透,最终进行取代,也是国产厂商们这么多年一直在干的事情,所以虽然现在还不行,但风波之下,确实也是我们的一个机遇,说不定过几年,我们就再也不用担心AMD/NVIDIA断供了,你觉得呢?

首个国产全功能GPU的万卡集群来了!“中国英伟达”出品

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

国产GPU万卡集群 ,它来了!

而且还是国内首个全功能GPU兼容CUDA 的那种。

这个集结了超过10000张 高性能GPU的超复杂工程,它的算力有多大?

不卖关子,直接揭晓答案——

总算力超万P ,专为万亿参数级别的复杂大模型训练而设计。

规模还只是它的特点之一,其它亮眼的地方还包括:

有效计算效率(MFU)目标最高达60%,可达到国际水平周均训练有效率目标最高可达99%以上,平均无故障运行15天以上,也是对标业界最高标准通用场景设计,加速一切大模型生态Day0级快速迁移,与CUDA兼容

这便是江湖人称“中国版英伟达”的摩尔线程 ,对自家智算中心全栈解决方案夸娥(KUAE)升级后的最新 “打开方式”。

而纵观国内算力的发展进程,仅是今年上半年便陆陆续续有不少“头部玩家”先后宣布布局万卡集群,“打群架” 之势,好不热闹。

但,万卡国产GPU,确实很少见。

加之以生成式AI 为主旋律的大模型热潮当道,Scaling Law的“魔法”仍在持续奏效,训练GPT-4所需要的GPU数量便已经达到了25000个。

以及在大模型架构方面也不只是围绕Transformer,而是呈现出多元化的趋势;与此同时,AI、3D和HPC跨技术与跨领域融合不断加速……

因此,当下的技术给算力提出了更高、更复杂、更多样化的要求——

万卡集群已然成为大模型玩家的最低标配 ,更是促使国产GPU大步迈入“万卡时代”

正如摩尔线程创始人兼CEO张建中 所述:

当前,我们正处在生成式人工智能的黄金时代,技术交织催动智能涌现,GPU成为加速新技术浪潮来临的创新引擎。

夸娥万卡智算集群作为摩尔线程全栈AI战略的一块重要拼图,可为各行各业数智化转型提供澎湃算力。

摩尔线程希望做的事情是解决最难做的事情,帮助国家、帮助行业解决缺少大算力的问题。

那么前不久刚官宣完千卡集群的摩尔线程,又是如何在这么短的时间内率先跨入“万卡俱乐部”的呢?

国产GPU万卡集群,是怎么“炼”成的?

在回答怎么“炼”之前,必须要确认的一点便是目标——什么样的万卡集群才算是好用的

对此,张建中基于刚才种种的现状分析,给出了一个符合当下算力需求的“好用公式”

好用=规模够大+计算通用+生态兼容

而这也正是最新夸娥(KUAE)万卡集群所具备的五大特点。

展开来看,首先便是万卡万P的超大算力

具体而言,升级后的夸娥(KUAE)已经实现了单集群规模超万卡,浮点运算能力达到10Exa-Flops。

与此同时,在GPU显存和传输带宽方面,显存容量达到了PB级,卡间互联总带宽和节点互联总带宽同样也达到了PB级,实现算力、显存和带宽的系统性协同优化,全面提升集群计算性能。

在大算力之后,便来到了好用的第二个关键因素——有效计算效率 (MFU)。

MFU作为衡量大型模型训练效率的标准指标,能够直观地反映整个集群训练过程的效率。

夸娥(KUAE)万卡集群通过在系统软件、框架和算法等多个层面进行深入优化,可以成功实现对大型模型的高效训练,MFU值最高可达60%。

具体来说,在系统软件层面,通过采用计算与通信效率的极致优化技术,显著提升了集群的执行效率和性能。

在框架和算法层面,该集群能够支持多种自适应的混合并行策略和高效的显存优化技术,能够根据具体的应用需求自动选择并配置最佳的并行策略,从而显著提高训练效率和显存的利用率。

此外,针对处理超长序列的大型模型,夸娥(KUAE)万卡集群利用CP并行技术和环形注意力机制等优化手段,有效减少了计算时间和显存使用,进一步提升了集群的训练效率。

对于一个好用的集群而言,稳定性 是最不可忽视的。

在这方面,正如刚才我们提到的,夸娥(KUAE)万卡集群平均无故障运行时间可超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率目标为99%。

之所以把目标定得那么高,得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:

软硬件故障的自动定位与诊断预测实现分钟级的故障定位Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度等

至于最后一个最重要的保障,就在于通用性生态友好

据了解,夸娥(KUAE)万卡集群专为通用计算场景量身定制,能够为LLM、MoE、多模态和Mamba等多样化的架构和模态的大型模型提供加速支持。

此外,这个集群还采用了高效且用户友好的MUSA编程语言,并且完全兼容CUDA,配合自动化迁移工具Musify,能够实现新模型的即时”Day0”级迁移,确保了生态系统的即时适配性,从而帮助客户迅速部署其业务。

不过有一说一,虽然摩尔线程已经解锁了万卡集群这一大关,但这个过程并非是将GPU堆叠这么简单,用张建中的话来说就是:

虽然从千卡到万卡在数字上只是多了一个0,但难度上了却增加了一个指数级,比攀登喜马拉雅山都难。

例如,单是在超大规模组网互联这个问题上,超万卡集群网络便会涉及参数面网络、数据面网络、业务面网络、管理面网络等。

不同的网络需要采取不同的组网部署方式,其中,超万卡集群对参数面网络方面的要求是最高。

再如集群有效计算效率 方面,大量实践表明,集群规模的线性提升无法直接带来集群有效算力的线性提升,受限于芯片计算性能(芯片及算子使用效率)、GPU显存的访问性能(内存和I/O访问瓶颈)、卡间互联带宽、有效的分布式并行策略等,集群有效计算。

除此之外,还会涉及训练高稳定与高可用、故障快速定位与可诊断工具、生态快速迁移、未来场景通用计算等种种问题。

总而言之,是有一种牵一发而动全身的感觉。

这就不免让人发出疑问:摩尔线程为什么非要啃下这块硬骨头?

万卡很难,但也很必要

千卡集群,不够用,根本不够用。

没错,这正是当下随着大模型以“AI一日,人间一年”的速度迭代更新之下,算力所面临的最根本问题。

也正因如此,主流的大模型玩家基本上都是配备了万卡集群,例如:

OpenAI:单集群GPU数量50000+谷歌:单集群GPU数量25000+Meta:单集群GPU数量24500+节跳动:单集群GPU数量12888……

而大模型玩家们要想保持在业界的领先性,那么自家的大模型的更新迭代的速度就不能太慢,两周更新一次似乎也是成为了当下的常态

因此,摩尔线程要做的事情,就是用万卡集群、全栈方式,打造一个大模型训练超级加工厂 ,可以在算力上匹配当下大模型如此快速更迭的速度。

所以摩尔线程为什么要啃下这块硬骨头,就不难理解了。

那么随之而来的另一个问题便是:为什么摩尔线程能够做到?

其实这并非是一蹴而就的事情。

其实早在2022年的时候,团队便已经设定了建集群的大方向与策略,这是因为当时A100算力也是处于紧缺的状态,国内市场急需能够替代它的产品。

从GPU功能情况来看,摩尔线程是在唯一可以从功能上对标英伟达的国产GPU企业。

随着2023年大模型的火爆,这种GPU集群式的方向就显得更加正确,毕竟黄仁勋在发布B200之际就表示“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU”。

而摩尔线程更是为此狠狠做了一番准备,所以现在看来,摩尔线程当时的策略和决定,确实是具备前瞻性的。

那么最后的最后,便是市场认可度的问题了,对此,在这次活动中的一张图便可以解释一切:

总而言之,细数摩尔线程在走来的这一路,似乎总是前瞻性地、开创性地推动着国产GPU的发展;而这一次,也是毫不意外地再拿下“国内首个”的头衔。

至于这个新升级的万卡方案是否能把握住高端算力的空窗期,答案就交给市场来回答了。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关问答

国产gpu哪家公司实力最强?

国产gpu芯片公司有:景嘉微:gpu龙头。景嘉微300474,GPU国产化龙头,产品打破国外芯片垄断,其通用GPU产品适用于处理超高清视频。北京君正:公司的主要产品为...

国产最强gpu芯片谁代工?

中芯国际是现在出片最多的5家芯片制造企业之一,虽然市场风格现在还比较少,但正处于快速增长阶段能够承载半导体行业大多数的制作订单,其中就包括GPU订单。目...

国内gpu公司实力排行?

景嘉微:gpu龙头。景嘉微300474,GPU国产化龙头,产品打破国外芯片垄断,其通用GPU产品适用于处理超高清视频。北京君正:公司的主要产品为32位嵌入式GPU芯片,...

国产服务器gpu有哪些?

目前,国产服务器GPU主要有以下几种:1.昇腾AI处理器(AscendAIProcessor):由华为公司自主研发的AI芯片,能够支持大规模的深度学习和神经网络算法。2.启...

纯国产!鸿蒙系统+龙芯CPU+风华GPU,距离Wintel还有多远?

取代Wintel并非梦想中国信息化建设的一次革命性突破和胜利——中国独立自主研发的纯国产电子信息核心软硬件技术:鸿蒙系统+龙芯CPU+风华GPU操作系统和芯...

非常期待国产电脑的出现,系统、主板、CPU、GPU都是国产的还的多久上市?

其实没啥好期待的,因为现在早就有纯国产的电脑,但是你有去购买吗?如果你真期待的话,就不会有现在这个问题了,因为你会去关注这块,并且早已购买相关的国产电...GP...

华为gpu国内哪家工厂代工?

中芯国际。根据查询顺企网显示。华为GPU是华为麒麟负责迭代设计研发,中芯国际负责代工量产。中芯国际集成电路制造有限公司成立于2000年4月3日,中芯国际是世...

商汤大模型用的哪家的国产gpu?

商汤科技的大型计算集群中使用了中国产的GPU,其中包括华为昇腾、寒武纪和紫光展锐等品牌的国产GPU。商汤科技对于硬件厂商没有特别的偏好,而是根据需要和市...

GPU的发展趋势是什么?

GPU人工智能的重要组成部分市场空间广阔GPU目前主要作为显卡的计算核心,主要解决图形渲染问题。GPU具有较为完整的技术生态,其具有高运算性能硬件、驱动...目...

华为“很吓人的”GPU技术真能提升手机的流畅度吗?为什么?

华为的GPUTurbo技术确实可以提升手机的流畅度,应该属于华为的第二代神优化技术,说到吓人显然有些夸张了。GPUTurbo技术通过在系统底层对传统的图形处理框架进...

 关公坊  欲明王 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2024  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部