3072芯片英伟达RTX 4060显卡曝光：AD107 GPU，3072核，8GB显存，115W

发布时间 : 2025-05-07

作者 : 小编

访问数量 : 240

扫码分享至微信

英伟达RTX 4060显卡曝光：AD107 GPU、3072核、8GB显存、115W

IT之家 2 月 14 日消息，爆料者 @Kopite7kimi 今天给出了 NVIDIA GeForce RTX 4060 桌面显卡的部分规格。

据称，普通版 RTX 4060 桌面显卡将会破天荒地使用 AD107 GPU。但你要知道，NVIDIA 之前产品线中的 60 级显卡大多基于 106 或 104 GPU，这还是我们第一次看到基于 107 GPU 的桌面级 60 级显卡，而且新卡显存还比 3060 少了 4GB。

除此之外，之前还有消息称新款 RTX 4070 或 4060Ti 将会使用 AD104 GPU。虽然目前性能还够用的 RTX 30 系列有一定降价，但这 4060 的“Ti”型号和“非 Ti”型号未免差得也太多了。

Kopite7kimi 表示，NVIDIA GeForce RTX 4060 GPU 计划使用 AD107-400-A1 GPU，也就是完整的 AD107 Ada 芯片，与移动显卡的配置基本相同。

该芯片具有 3072 个 CUDA 内核和 8GB GDDR6 显存，在 128bit 总线接口上以 18Gbps 的速度运行，最终可提供 288 GB / s 的带宽，而参考 TDP 仅有 115W，可能还具有 24 MB 缓存 (L2)。

如果这款 RTX 4060 按照之前 60 级显卡定价策略来预测的话，它应该会在 300-400 美元左右，但今年 RTX 40 系列显卡面试后，这个定价还真不好说，不过性能应该会比现有 RTX 3060 卡高出 30-50% 左右。

IT之家测试发现，目前笔记本电脑中的 RTX 4060 显卡相比 RTX 3060 12 GB 显卡快 25%，这表明大容量缓存确实有助于提高 1080p 分辨率下的游戏性能。

值得一提的是，搭载 RTX 4060 移动显卡的笔记本电脑即将大批上市，因此目前来看，除了当前一代 RTX 30 系列的库存之外已经没有什么能阻止 NVIDIA 发布桌面版显卡。

当然，这款显卡预计将在 RTX 4070 和 RTX 4060 Ti 之后于 2023 年年中左右上市，而且这一切都意味着更低端的 RTX 4050 将采用比完整 AD107 更差的 GPU，预计后续还将出现更多详细情报，敬请期待。

拆掉英伟达护城河！最快超算用3072块AMD GPU训完超万亿参数LLM

编辑：润好困

【新智元导读】世界上最快超算集群Frontier，用8%的GPU训练出了一个万亿级规模的大模型，而且是在AMD硬件平台之上完成。研究人员将训练的细节和克服的困难写成了一篇论文，展示了如何用非英伟达的生态完成大模型训练的技术框架和细节。

用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。

位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 CPU。

最近，研究人员只使用了其中8%左右的GPU，就训练了一个GPT-3.5规模的模型。

研究人员成功地使用ROCM软件平台在AMD硬件上成功地突破了分布式训练模型的很多难点，建立了使用ROCM平台在AMD硬件上为大模型实现最先进的分布式训练算法和框架。

成功地在非英伟达和非CUDA平台上为高效训练LLM提供了可行的技术框架。

训练完成后，研究人员将在Frontier上训练大模型的经验的总结成了一篇论文，详细描述了期间遇到的挑战以及克服的困难。

论文链接：https://arxiv.org/abs/2312.12705

在研究人员看来，训练一万亿参数规模的LLM最为重大的挑战是所需的内存量——至少需要14TB的内存。

而单块GPU最大的内存只有64GB，这意味着需要并行使用多个AMD MI250X GPU才能完成训练。

而并行更多的GPU，对GPU之间的通信提出非常高的要求。如果不能有效地利用GPU之间的带宽通信，大部分的GPU计算资源都会被浪费。

具体来说，研究人员将Megatron-DeepSpeed分布式训练框架移植到Frontier上，以支持在AMD硬件和ROCM软件平台上进行高效的分布式训练。

研究人员将基于CUDA的代码转换为HIP代码，还预构建DeepSpeed ops以避免ROCM平台上的JIT编译错误，并且修改代码以接受主节点IP地址为参数进行PyTorch Distributed初始化。

在220亿参数模型上，Frontier的训练峰值吞吐量达到了38.38%，1750亿参数模型峰值吞吐量的36.14%，1万亿参数模型峰值吞吐量的31.96%。

训练一个1000B级别的模型，最终研究团队将缩放效率（scaling efficiency）做到了87%。同时，作为对比，研究人员还同时训练了另一个1750亿参数的模型，缩放效率也达到了89%。

另一方面，因为现在这样规模的模型训练都是在基于英伟达的硬件和CUDA生态中完成的，研究人员表示在AMD的GPU之上想要达到类似的训练效率和性能，还有很多工作需要做。

训练细节

GPT式模型结构和模型尺寸

Transformer模型由两个不同的部分组成，编码器块和解码器块。

编码块有助于捕捉非因果自注意力，即句子中的每个标记都能注意到左右两边的token。

另一方面，解码块有助于捕捉因果自注意，即一个token只能注意到序列中过去的标记。

最简单的GPT类模型由一叠类似的层组成。

每一层都有一个注意力区块和一个前馈网络（FFN）2。注意力区块有三组参数

，其中d是模型的隐藏维度。FFN模块有两层，分别为权重

和

所以，每层有11d^2个参数。

由于嵌入层位于模型的起始层，参数数大致为12Ld^2，其中L为层数，d为隐藏维度。

根据这个公式，研究人员可以定义出下表中大小分别为22B、175B和1T的三个模型。

大部分内存需求来自模型权重、优化器状态和梯度。

在混合精度训练中，每个模型参数需要6个字节，4个字节用于在fp32中保存模型，2个字节用于在fp16中进行计算。

优化器状态的每个参数需要4个字节，以将动量保存在fp32中。

研究人员需要为每个参数保存一个fp32梯度值。因此，在使用Adam优化器进行混合精度训练时，最小内存需求如下表所示。

每个Frontier节点有8个MI250X GPU构成，每个都有64GB的HBM内存。

因此，内存需求表中，可以得出结论：要拟合模型的一个副本，模型并行化是必要的。模型并行可以通过张量和碎片数据并行在隐维度上实现，也可以通过管线并行（pipeline paralism）在层维度上实现。

管线并行

管线并行将模型分成p个阶段，每个阶段大约有L/p层。然后，将批次分割成微批次，每执行一步，一个微批次通过一个阶段。

每个阶段都放置在一个GPU上。

最初，只有第一个GPU可以处理第一个微批次。在第二个执行步骤中，第一个微批次进入第二个阶段，而第一个微批次现在可以进入第一个阶段。

如此反复，直到最后一个微批次到达最后一个阶段。

然后，反向传播开始，整个过程反向继续。在每个批次之后引入同步点，以保持正确的计算顺序，这需要冲洗管线阶段。

因此，在一个批次处理的开始和结束时，托管较早和较晚阶段的GPU会处于空闲状态，从而导致计算时间的浪费或管线泡沫。

管线泡沫分数为p-1m，其中m是批次中微批次的数量。

简单的GPipe调度会产生很大的管线泡沫。有一些额外的方法可以减少管线泡沫。

其中一种方法是PipeDream提出的1F1B调度，在前向传递过程中，最初允许微批次向前流动，直到最后一组收到第一个微批次。

但随后第一个批次开始向后传播，从那时起，前向传递总是伴随着后向传递，因此被称为1F1B。为了进一步缩小气泡大小，研究人员提出了一种交错计划，即在单个GPU上放置多个较小的管线组，而不是在单个GPU上放置一个管线组。

1F1B计划的管线泡沫大小大约为p/m，其中p是管线组的数量，m是微批次的数量。

微批次的数量。对于带交错功能的1F1B计划，泡沫大小为m×v p-1，其中v是放置在单个GPU上的交错组的数量。

分片数据并行（Sharded Data Parallelism）

分片数据并行将模型参数、优化器状态和梯度按行分片，并在每个GPU上放置一个分区。

由于训练一次推进一个层，因此计算设备的内存中只需要一个完整的层和相关值（优化器状态、梯度和参数）。

分片数据并行性正是利用了这一点；在执行一个层之前，通过在所有GPU上执行该层的所有收集，在所有GPU 上将该层实体化4b。

现在，所有GPU都有相同层的副本。然后，在不同的GPU上对不同的数据批次执行该层。之后，每个GPU会删除该层的所有收集部分，并通过全收集为下一层的实体化做好准备。

通过这种方式，它模拟了数据并行性，但不是每个GPU都托管了整个模型的完整副本，而只是托管当前活动层的副本。

分片数据并行可以促进大型模型在GPU上的数据并行训练，即使模型太大，无法容纳在单个GPU的内存中。

DeepSpeed的ZeRO优化器在不同程度上支持分片数据并行。ZeRO-1只对优化器状态进行分片，ZeRO-2对梯度和优化器状态进行分片，ZeRO-3则对优化器状态、梯度和模型参数进行分片。

另一方面，PyTorch FSDP（完全分片数据并行）对所有三种数据进行了分片，并通过将分片数据并行与传统数据并行相结合，支持混合数据并行。

3D并行和Megatron-DeepSpeed

仅使用单一并行策略来实现模型并行可能是一种低效方法。例如，如果研究人员只使用张量并行来对模型进行水平切分，那么张量可能太薄，需要频繁进行全还原通信，从而减慢训练速度。

另一方面，如果研究人员将模型划分为过多的管线阶段，每个阶段的计算量就会很小，这就需要频繁的通信。一个已知的问题是，在多个节点上执行张量并行训练需要缓慢的树状allreduce。

以混合方式使用多种并行模式，可以最大限度地减少性能不佳的地方。三维并行结合了张量、管线和数据（传统和分片）并行技术，以充分利用资源。

通过适当的设置，三维并行技术可将通信与计算重叠，从而减少通信延迟。

人工智能领域使用的三维并行标准代码库基于Megatron-LM。MegatronDeepSpeed扩展了Megatron-LM的功能，增加了DeepSpeed功能，如ZeRO-1 sharded数据并行和重叠1F1B的管线并行。

计划的管线并行。不过，这些标准代码库都是针对英伟达GPU和CUDA平台开发的。

作为最完整的框架，研究人员希望在Frontier上使用Megatron-DeepSpeed，Frontier 是AMD系统，其软件栈建立在ROCM软件平台上。

将Megatron-DeepSpeed移植到Frontier

Megatron-DeepSpeed代码库来源自英伟达公司的Megatron-LM代码库，然后微软在其中添加了DeepSpeed ZeRO优化器、管线并行性和MoE。

英伟达负责开发Megatron-LM，因此其代码库是以英伟达GPU和CUDA环境为目标平台开发的。

将该代码库移植到AMD平台上运行会面临一些挑战。

1. CUDA代码：CUDA代码不能在AMD硬件上运行，但HIP（一种类似CUDA的C/C++扩展语言）可以。

研究人员使用hipify工具将CUDA源代码转换为HIP代码，使用hipcc构建可共享对象（so文件）然后使用pybind从Python代码访问这些可共享对象。

2. DeepSpeed操作：大多数DeepSpeed操作都是在执行训练管线期间通过JIT（及时）编译构建的。

但是，DeepSpeed操作的JIT编译在ROCM平台上不起作用，因此研究人员在安装DeepSpeed时预先构建了所有操作。

研究人员禁用了Megatron-DeepSpeed代码库中的所有JIT功能，以避免任何运行时错误。

3. 初始化PyTorch分布式环境：Megatron-DeepSpeed利用PyTorch分布式初始化创建各种数据和模型并行组。

初始化过程需要指定一个计算节点作为「主」节点，所有分布式进程都需要它的IP地址。

研究人员修改了代码库，以接受MASTER ADDR作为参数。

研究人员准备了一个启动脚本，从SLURM节点列表中读取第一个节点的IP地址，并将其作为参数传递给所有使用srun启动的进程。

然后，初始化代码会使用这个MASTER ADDR进行PyTorch分布式初始化。

4. 通过ROCM平台软件提供的库/软件包：研究人员与AMD开发人员合作，获得了一些基本CUDA软件包的ROCM版本，如APEX。

APEX是英伟达的混合精度库，Megatron-DeepSpeed代码库大量使用该库进行混合精度训练。

他们还改编了支持ROCM的FlashAttention和FlashAttention2库版本，供Frontier上的编译器使用。Flash-Attention操作被移植到AMDGPU上，使用的内核来自Composable Kernel库。

各种分配策略的实证分析

张量并行

张量并行法按行划分模型层，每层之后都需要通过Allreduce对部分激活值进行聚合。

每层执行后的AllReduce成本很高，这取决于张量并行组中GPU之间的通信带宽，通信量取决于隐藏大小和微批量大小。

下图5显示了前沿GPU之间的通信带宽。一个节点中有8个GPU，单个芯片中的GPU通过四个（50+50 GB/s）无限结构连接。

跨芯片的GPU之间的带宽是它的一半。但是，跨节点的GPU之间的带宽是25+25 GB/s。

因此，从网络拓扑和配置来看，TP = 2的通信速度最快，TP = 4或8的通信速度次之。

但是，如果TP ¿ 8，通信将通过较慢的以太网进行，通信速度将大大降低。因此，将TP保持在[2, 4, 8]范围内应该是最佳策略。

研究人员使用8个GPU训练一个1.4B的模型，TP值从1到8不等，结果发现TP值越小，吞吐量越高。

观察结果III.1：TP值越大，训练效果越差。

B. 管线并行

管线并行化沿着层维度划分模型，并将连续的层划分为管线阶段。一个微批次的执行从一个阶段流向下一个阶段。

管线气泡是使用这种并行方式进行高效训练的限制因素。

研究人员观察了大M或大GBS的效果，以了解22B参数和1T参数大小的两个模型对GPU吞吐量的影响（下图7）。

观察结果III.2：使用大的全局批次大小或许多微批次使管线阶段饱和，可将管线气泡大小降至最低。

管线阶段数量的影响：接下来，研究人员研究管线级数对训练性能的影响。直观地说，管线阶段越多，意味着通信发生前的计算量越少。

在全局批次大小（微批次数量）固定的情况下，管线阶段数量越多，计算量越少。

气泡大小会随着管线级数的增加而增加。研究人员还尝试增加管线级数，同时保持PMP固定不变，按比例增加全局批量大小。

观察结果III.3：在保持全局批量大小不变的情况下，增加管线级数会增加管线气泡的大小，并降低训练性能。

观察结果III.4：如果管线级数与微批次数的比例保持不变，则随着管线级数的增加，训练性能也会保持不变。

从第一个实验（上图8a）来看，随着管线级数的增加，训练性能会下降。但是，通过调整全局批次大小来固定气泡比例，可以保持吞吐量（上图8b）。

通过实验、超参数调整和分析，研究人员确定了在Frontier上训练Trillionparameter模型的高效策略，该策略结合了各种分布策略和软件优化。

训练万亿参数模型

训练万亿参数模型的高效策略

通过增加微批次数量使管线阶段饱和：研究人员使用DeepSpeed（来自 DeepSpeed-Megatron，但不是Megatron的版本）提供的管线并行性。这种管线并行算法是PipeDream的算法，其中多个阶段相互重叠，并采用1F1B算法来减少气泡大小。

但是，如果管线级数没有达到饱和，气泡大小就会增大。为确保饱和，微批次的数量必须等于或超过管线级数。

将张量并行限制为单个节点/八个GPU：由于AllReduce操作过于频繁，而且需要对每一层都执行，因此分散在不同节点上的层会导致跨节点GPU之间基于树状结构的AllReduce，而通信延迟则会成为一个重要瓶颈。

使用Flash-Attention v2：与普通注意力实现相比，研究人员观察到使用Flash-attention可将吞吐量提高30%。

使用ZeRO-1优化器实现数据并行：研究人员使用ZeRO-1实现数据并行，以减少内存开销。

使用AWS的RCCL插件提高通信稳定性：AWS OFI RCCL插件使EC2开发人员能够在运行基于AMD RCCL的应用程序时将libfabric用作网络提供商。在Frontier上，该插件的使用显示了通信的稳定性。

万亿参数模型的训练性能

根据从超参数调整中吸取的经验教训，研究人员确定了一组大小为220亿个参数和1750亿个参数的模型组合。

在这两个模型的GPU吞吐量的鼓舞下，研究人员最终使用表V中列出的分布策略组合训练了一个万亿参数模型，并进行了十次迭代，以观察其训练性能。

对于22B参数模型，研究人员可以提取其峰值吞吐量（191.5 TFLOPS）的38.38%（73.5 TFLOPS）。

对于175B模型训练，研究人员实现了峰值吞吐量的36.14% （69.2 TFLOPs）。

最后，对于1T模型，实现了峰值吞吐量的31.96%（61.2 TFLOPs）。

扩展性能

通过数据并行来维持模型并行训练的性能，让系统中的大量GPU参与进来，是一项极具挑战性的任务。性能最强的GPU通过不同速度的通信链路连接，如果对网络中较大的部分施加压力，可能会导致性能损失。

因此，研究人员通过数据并行化将175B模型的训练扩展到1024个GPU，将1T模型的训练扩展到3072个GPU，以衡量训练策略的扩展效率。

1. 弱扩展：研究人员在1024、2048和3072个GPU上使用全局批量大小3200、6400和9600执行数据并行训练，对1T模型进行弱扩展实验。数据并行训练实现了100%的弱扩展效率（下图12）。

2. 强扩展：研究人员进行了强扩展实验，将全局批量大小保持在8000，然后改变GPU的数量。研究人员在1024个GPU上对一个175B模型实现了89.93%的强扩展性能（图13a）。研究人员在3072个GPU上对一个1万亿参数的模型实现了87.05%的强扩展性能（图13b）。

世界最快超算

AMD加持的Frontier超级计算机现在是世界上第一台官方认可的百亿亿次超级计算机，算力高达1.102 ExaFlop/s。

它在新发布的全球最快超级计算机Top500榜单中名列第一。

Frontier的速度比榜单上接下来的七台超级计算机的总和还要快。

Frontier现在也被列为地球上最快的AI系统，在HPL-AI基准测试中提供6.88 ExaFlops的混合精度性能。

这相当于大脑中860亿个神经元中的每一个每秒执行6800万条指令。

Frontier超级计算机的规模之大令人惊叹，但这只是AMD在今年Top500榜单中取得的众多成就之一——全球排名前10的超级计算机中，有5台采用AMD EPYC系统，而排名前20的超级计算机中，有10台采用AMD EPYC系统。

Frontier超级计算机由HPE制造，安装在橡树岭国家实验室 (ORNL)。

该系统拥有9408个计算节点，每个节点配备一个64核AMD「Trento」CPU，搭配512 GB DDR4内存和四个AMD Radeon Instinct MI250X GPU。

这些节点分布在74个HPE Cray EX机柜中，每个机柜重8000磅。整个系统拥有 602112个CPU核心，4.6 PB DDR4内存。

参考资料：

https://arxiv.org/abs/2312.12705

https://www.tomshardware.com/news/amd-powered-frontier-supercomputer-breaks-the-exascale-barrier-now-fastest-in-the-world

麻烦大仙们!我想咨询:龙岗ic芯片烧录哪家好，ic芯片烧录产品...

[回答]芯片功率决定80%的信号好坏.功放有时基本无用.有用时也是卡的功率占大头,功放只决定一小部分.(如300M比150M强.150M比54M强,)其它20%在天线上.8187...

rtx4050参数?

RTX4050搭载AD106或AD107芯片,CUDA核心数在3072个左右。AD107将配备16MB的二级缓存和48个ROP。频率还不确定,预计在2.0-3.0GHz之间。RTX40...

MACmini参数功能?

基本参数型号Macmini(MB464CH/A)操作系统MacOSXv10.5Leopard处理器处理器IntelCore2Duo处理器系列酷睿2双核处理器频率2.0GHz二级缓...

VAIO-UX18的介绍-ZOL问答

谈到超小型笔记本,目前大家谈论最多的应该就是SONY的UX18了,这款4.5英寸,仅重510g的超小型笔记本刚刚透露出即将上士的消息,就得到了无数消费者的关...

三星笔记本电脑NP-R458L价钱是多少?-ZOL问答

三星NPR458L家用14.1基本参数型号R458-DS02上市时间2008年处理器IntelCore2Duo(Penryn)P5800(2.0G)处理器类型酷睿2(Pe...

itx780显卡?

GTX780是一款发烧级独立显卡,是GTX980上市之前的卡皇,现在也是属于顶级显卡行列,现在的所有3D游戏都是可以全效果流畅运行的,像剑灵这种大型3D游戏都可以开到...

CPU中Cache是什么-ZOL问答

器和主存储器之间信息的调度和传送是由硬件自动进行的。某些机器甚至有二级三级缓存,每级缓存比前一级缓存速度慢且容量大。组成结构高...某些...

6988的神舟和6999的拯救者，选哪个?

处理器类型……lntel酷睿2双核P8600标称主频(GHz)……2.4二级缓存(KB)……3072KB系统总线频率(MHz)……1066MHzCPU核心……Penryn主板芯片组……lnt...

nvidiateslap100价钱-ZOL问答

貌似不单卖,只卖DGX-1服务器,内置两颗英特尔至强E5-2699v3处理器,八张NVIDIATeslaP100计算卡,129000美元英特尔至强phi越来越强了,cpu,gpu,tpu,...

技嘉10603GD好不好求大神赐教-ZOL问答

显卡芯片:GeForceGTX1060显存频率:8008MHz显存位宽:192bit有用(0)回复baiye5xGX是什么型号?是GTX960吧?960不能开最高画质只能开到中画...

iot芯片云知声的IoT AI芯片是什么？和传统芯片有什么不同？

affy芯片生物芯片发展现状与前景分析