芯片供应商
HOME
芯片供应商
正文内容
联发芯片 端侧大模型风起,联发科技宣布All in AI,发布天玑9300+芯片丨最前线
发布时间 : 2024-11-24
作者 : 小编
访问数量 : 23
扫码分享至微信

端侧大模型风起,联发科技宣布All in AI,发布天玑9300+芯片丨最前线

作者丨邱晓芬

5 月 7 日,联发科技(MediaTek)举办天玑开发者大会 2024。这也是联发科技董事、总经理陈冠州口中,“第一次这么大规模的AI产业生态大会”。

从整场大会可以看出,联发科技大有All in AI的趋势,从芯片、软件工具、生态多方面着手。

在芯片层面,联发科此次发布了全新的「天玑9300+核心处理器」 。值得注意的是,这颗芯片依旧主打AI能力——在端侧支持双LoRA融合技术,这意味着开发者们能在一个大模型的基础上,叠加双倍的功能,生成式AI的效率更高。

此外,天玑 9300+也支持当下主流的生成式 AI大模型,支持图像、文字、音乐等,还支持AI框架 Execu Torch,加速开发者借助端侧生成AI的开发进程。在发布会上演示时,联发科技用天玑 9300+芯片,在端侧跑了Llama 2的 7B大模型,仅仅使用了22tokens/秒。

在过去一段时间里,联发科技对端侧大模型在手机的落地发起了进攻。去年 11月份推出的天玑 9300 已经得到了OPPO、vivo主流手机厂商旗舰系列的认可,在彼时那颗芯片上,联发科技开始在soc里面集成了能提高计算效率、降低计算功耗的的APU,把计算的任务从GPU分流到 APU上。

在这几次的AI突围后,此前联发科技方面也表示,其今年的AI芯片出货量将突破千万片大关。

除了芯片单一产品之外,此次联发科技还在软件上下了功夫。陈冠州表示,在构建端侧AI的生态上,更好的方式其实是将原有的智能生态转化成生成式AI,而不是重新从0开始造一套生态。据他判断,生成式 AI在手机上将在三个方面率先落地——智能出行、游戏、新的交互体验。

不过,由于生成式AI尚且处于起步期,而终端硬件各式各样,互相移植的难度太大,要在端侧运行大模型,目前也缺乏开发工具。

为此,联发科技还发布了一个「天玑AI开发套件」 。据联发科技方面介绍,这个套件的特点是更快更全,将通过模型的量化、编译、推理等技术,加速大模型部署,部署时间从一周减少到一天;此外,还覆盖全球主流大模型的GenAI Model Hub,提供一站式视觉化开发环境。

目前,天玑AI开发者套件已覆盖智能手机、智能汽车、物联网、个人电脑等智能终端设备。

除了芯片和工具上的新动作,此次联发科技也官宣了不少生态伙伴的合作关系。比如,此次联发科方面宣布与阿里云旗下通义千问 AI Agent(智能体)进行端侧合作。

此次,联发科技方面还宣布了与百川智能、传音、零一万物、OPPO、荣耀、vivo、小米启动“天玑AI先锋计划”,将整合产业生态伙伴资源为开发者提供开发资源、技术支持和商业机会,帮助开发者在搭载天玑芯片的终端设备上打造新的用户体验。

赛道Hyper 英特尔芯片设计之变

来源:网易新闻

作者:周源/华尔街见闻

9月25日,英特尔正式推出AI加速卡Gaudi 3和“Granite Rapids”Xeon 6(至强6,服务器CPU)。

Gaudi 3对标英伟达H100和AMD的Instinct MI300,用于GAI和HPC;Xeon 6专为人工智能和高性能计算场景设计。

虽弱但强?怎么理解?

今年4月,英特尔就宣布,将于今年四季度推出Gaudi 3,现在,市场终于可以看到这颗英特尔倾尽全力研发的AI加速卡的实际性能,究竟有多强。毕竟,英特尔要靠这颗芯片正面PK英伟达广受市场欢迎的H100加速卡。

除了选用HBM2E(第三代)作为存储中心,较为令人迷惑——H100用的是HBM3(H100 SXM5 GPU是全球首款使用HBM3内存的GPU,提供了高达3 TB/s的内存带宽),其他的性能升级,至少从参数看,还是非常惊人的。

Gaudi 3采用台积电5nm制程工艺,拥有两个芯片组:每个芯片组各有4个(合计8个)MME(矩阵乘法引擎),包含64个张量处理器核心(TPC,带有FP32累加器的256x256 MAC结构);SRAM缓存容量翻番至96MB,带宽翻倍至19.2TB/s;HBM2E内存容量从96GB增加到128GB(8颗),带宽为3.7TB/s。

与前代Gaudi 2相比,在物理配置上,Gaudi 3也有明显的大幅提升。Gaudi 2用了台积电7nm工艺,有24个TPC、2个MME和96GB HBM2E高带宽内存。但不知出于何种考虑,英特尔Gaudi 3仅支持FP8矩阵运算和BFloat16矩阵和矢量运算,不再支持FP32、TF32和FP16。

性能方面,Gaudi 3的MME和矢量BF16的参数都赶不上英伟达H100。

Gaudi 3的MME BF16/FP8都是1835 TFlops(1.835亿亿次/秒),矢量BF16能达到28.7 TFlops(28.7万亿次/秒),分别比Gaudi 2提升3.2倍、1.1倍和1.6倍;但是英伟达H100的这三项性能参数分别为BF16的1979 TFlops(高于1835 TFlops)、FP8的3958 TFlops和1979TFlops。

在核心性能参数上,Gaudi 3和英伟达H100的差距肉眼可见。但是,英特尔却宣称,Gaudi 3比H100的LLM大模型推理性能领先50%、训练时间快40%,综合性价比是英伟达的两倍。

这是怎么做到的呢?是不是英特尔的软件能力(尤其是软件开发配套工具)和AI生态比英伟达更强?毕竟硬件性能需要强悍的软件能力,以及完善的生态做配合,才能充分激发。

对此,英特尔没有做过多解释,其宣称比英伟达更强的证据,仅是几张PPT。因此,是否真能像英特尔说的那样,还需要市场和时间验证。

唯一让市场对英伟达高度自信有信心的是售价。今年早些时候,英特尔表示,基于八颗Gaudi 3的AI加速器套件,售价12.5万美元。也就是说,每颗Gaudi 3售价约15,625美元。相比之下,H100目前售价为30,678美元,英特尔Gaudi 3的价格是英伟达H100的50.93%。

至少英特尔高层也承认生态的价值,认知还是相当全面的。

英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说,“对AI的需求正在推动数据中心发生巨大转变,业界要求在硬件、软件和开发工具方面做出选择。随着我们推出配备P核的Xeon 6和Gaudi 3 AI加速器,英特尔正在建立一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

从这个表态可以看出,英特尔的AI加速卡生态也在构建过程中。开发配套软件方面,Gaudi 3能无缝兼容PyTorch框架、Hugging Face Transformer和扩散模型;同时,Gaudi 3会提供给IBM Cloud和英特尔Tiber开发者云。

此外,Gaudi 3加速器提供三种部署形态,分别是OAM 2.0标准夹层卡,被动散热峰值功耗900W,液冷散热峰值功耗1200W;HLB-325通用基板,功耗未知;HL-338扩展卡,PCIe 5.0 x16接口,被动散热峰值功耗600W。

基于英特尔Gaudi 3的系统将于今年第四季度从戴尔、HPE和超微全面上市,戴尔和超微的系统将于10月出货,超微的设备将于12月出货。

设计思路向联发科看齐?

同一日,英特尔还发布了宣称过久却迟迟不露面,故而快被遗忘的“Granite Rapids”Xeon 6(CPU)。

好在9月25日,“Granite Rapids”服务器 CPU 系列的高端产品终于登台,市场认为,“Granite Rapids”Xeon 6与今年6月发布的“Sierra Forest”Xeon 6芯片组合起来,还是能打的,起码能降低英特尔在IDC(数据中心)领域的市场损失。

尽管这个结果不那么好——推出一颗新的性能强劲的处理器,作用仅仅是降低损失,这无论怎么说,都有点令人沮丧。但是,英特尔的对手——AMD现在对英特尔来说,后者难以在技术、成本、性能和市场等维度做到超越,故而若能减少损失,这结果已经相对理想。

由于Xeon 6的E核(能耗)和P核(性能)变体的芯片封装和架构,在2023年的Hot Chips 2023已经公开,所以实际上,对“Granite Rapids”Xeon 6来说,性能提升的亮点就9月25日披露的信息看,最鼓舞至少是英特尔公司信心,部分让市场看到希望的亮点,是——Xeon 6提升了设计水平。

芯片设计水平能决定最终的性能表现,芯片设计最难的部分是取舍,这取决于对特定芯片定位、性能、技术水平、成本、竞争和市场需求度等极多维度的综合考虑。

比如联发科技设计旗舰芯片的核心考虑是要在保持相对低功耗的基础上,再考虑性能提升;而高通更追求高性能,不像联发科那么极度追求功耗平衡,所以之前推出了饱受市场诟病的火龙芯片。

英特尔的芯片设计考虑,有点类似于联发科。比如IPC(每时钟指令数)常被用来衡量CPU性能的重要指标。那么在芯片设计时,无限制提升IPC是可取的吗?

别忘了还有能耗限制。虽然台式机或者服务器,对能耗的容忍度更高,但也会综合考虑能耗成本。此时应该如何选择?

最近,英特尔高级研究员兼Xeon 6产品线首席架构师Ronak Singhal对这个话题有过一番解释, 核心观点就一个,英特尔Xeon 6的设计思路是降低能耗,同时再尽可能的保持高性能,故而不过分追求IPC。

这个设计指导思路的结果就是,“Granite Rapids”Xeon 6,英特尔将核心数量从之前的两颗P核的56个核心提升至120个,增加2.3倍,而顶部部分的功率仅增加至500W,仅增加1.4倍。

总的来说,Xeon 6的性能特性很多,比如超核心数(UCC)变体,即Xeon 6 6900P,具有高达504 MB的L3缓存,远超通常的英特尔芯片缓存容量。但是Xeon 6也有很奇特的设计,比如不支持支持四路和八路服务器的变体,这和Gaudi 3使用HBM2E一样令人困惑。

相关问答

联发科中国股票叫什么?-股票知识问答-我爱卡

[回答]联发科中国股票就叫联发科,股票代码是2454.TW。1997年,联发科技正式成立,并且已在台湾证券交易所公开上市。公司的总部位于中国台湾地区,是全球著名...

联发科是哪个国家的芯片?

联发科芯片是中国的。联发科技成立于1997年,已在台湾证券交易所公开上市。总部设于中国台湾地区,并设有销售或研发团队于中国大陆、印度、美国、日本、韩国、...

为什么联发科技的简称不叫联发而要叫联发科?

你好,很高兴回答这个问题,其实也很简单,我来简单描述一下吧。联发科是联发科技公司的简称,因为联发科技主要是属于芯片制造商,联发科技上市之后,为了避免...你...

联发科芯片能长期使用吗?

联发科芯片是可以长期使用的。联发科技股份有限公司是全球第五晶圆厂半导体公司,在移动终端、智能家居应用、无线连接技术及物联网产品等市场位居领先地位,一...

三星芯片叫什么?

三星公司生产的处理器芯片有多个型号,其中比较著名的包括:1.Exynos处理器:这是三星公司自主研发的处理器芯片,采用ARM架构,主要用于三星自家的手机和平板...

联发科高端芯片有哪些?

联发科技高端系列有曦力G系列和天玑系列曦力G系列是专为绝佳手机游戏体验所打造的强大芯片。通过芯片的全面升级,联发科技助力消费者毫秒致胜,无障碍称霸...

性价比神器RedmiNote8系列发布,联发科技还值得信赖吗?

早在联发科技发布HelioG90T芯片的时候,Redmi就确定会首发搭载这颗芯片,并且有一段时间排它期。我HelioG90T账面数据还是非常不错的:两颗A76大核+六颗A55小...

heliog99处理器相当于骁龙多少?

联发科g99处理器相当于骁龙骁龙780G,但是性能稍微低于骁龙780G。天玑g99的定位是性能高于天玑800U,低于天玑1100,搭载该芯片的工程机跑分48万左右,而天玑820...

天玑1200芯片哪里产?

是中国台湾产的。天玑1200集成MediaTek5G调制解调器,通过包涵6大维度、72个场景测试的德国莱茵认证,支持高性能5G连接,带给用户全场景的高品质5G连网体验。...

怎么查看手机芯片型号-ZOL问答

要查看手机芯片型号,可以按照以下步骤进行:1.打开手机设置:在主屏幕上找到“设置”图标,并点击打开。2.进入关于手机页面:在设置菜单中,向下滑动并找到...

 机动战士高达w  高尔夫媒体 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2024  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部