Home
avatar

taoleb

英伟达NVFP4技术突破:4比特精度预训练大模型,更快更便宜

英伟达NVFP4技术突破:4比特精度预训练大模型,更快更便宜

概述

在DeepSeek刚刚提及UE8M0 FP8量化设计引发热议后,英伟达再次在低精度量化领域发力,这次不是FP8量化的新进展,而是向FP4量化跃进。英伟达将其最新的NVFP4策略拓展到预训练阶段,声称能够以匹配16位的精度进行训练,并以4位的速度和效率运行,为AI工厂带来革命性突破。

技术背景与意义

FP8到FP4的跨越

FP8(8位浮点数)作为一种超低精度的数据表示格式,已经在业界获得广泛关注。微软、Meta、英特尔、AMD等科技巨头都在研究FP8训练与推理,有成为业界”新黄金标准”的趋势。而英伟达此次发布的NVFP4技术,将精度进一步降低到4位,实现了质的飞跃。

战略意义

英伟达称:“在预训练中使用NVFP4,可显著提升大规模LLM训练效率和基础设施效能。这不仅是一次渐进式优化,而是一种重新定义大规模模型训练方式的根本性转变。”

在”AI工厂”时代,算力是进步的引擎,数值精度已不再是后端细节,而是一种战略优势。NVFP4 4比特预训练为效率与可扩展性设定了新的标准,推动高性能AI模型开发进入全新阶段。

核心技术突破

什么是4比特量化

4比特量化指的是将模型中的权重和激活值的精度降低到仅仅4位。这相比常见的16位或32位浮点数格式,是一次大幅度的精度压缩。在预训练阶段使用4比特量化非常具有挑战性,因为需要在保持训练速度提升的同时,谨慎地处理梯度和参数更新,以确保模型精度不会丢失。

NVFP4预训练量化方案

为了实现4位精度的预训练,英伟达开发了一套专门的NVFP4预训练方案,解决了大规模训练中动态范围、梯度波动以及数值稳定性的核心挑战:

1. 微块缩放增强数值表示

Blackwell是NVIDIA首个原生支持FP4格式的架构。NVFP4采用微块缩放技术——每16个4位元素共享一个公共缩放因子。相比MXFP4将块大小设为32元素,NVFP4将块大小缩小至16元素,从而减少异常值的影响,实现更精确的缩放。

2. 高精度块编码

NVFP4使用带额外尾数位的高精度E4M3缩放因子,不同于仅限于2的幂(E8M0)且易产生高舍入误差的MXFP4。这允许更细粒度的缩放,更有效利用有限的量化区间。

3. 重塑张量分布

对GEMM输入应用Hadamard变换,可将其分布重塑为更接近高斯分布,从而平滑异常值,使张量更容易被精确表示。这些变换对模型结构是透明的,可在前向和反向传播的线性层中应用。

4. 保持数据一致性

采用保持前向和反向传播一致性的量化方法,诸如选择性二维块量化等技术,有助于在整个训练周期中保持张量表示的对齐。

5. 随机舍入减少偏差

随机舍入会根据数值在两个可表示值之间的位置,按概率向上或向下舍入,这对于减少舍入偏差、保持训练期间梯度流动以及最终提高模型精度至关重要。

性能验证与实验结果

万亿级Token规模验证

为了评估4位精度在大规模模型训练中的可行性,英伟达在一个120亿参数的混合Mamba-Transformer架构模型上进行了FP8和NVFP4的实验。该模型在包含10万亿个token的超大数据集上进行训练,采用分阶段数据混合策略。

训练稳定性验证

英伟达成功地从零开始使用NVFP4训练同样的12B模型,证明这种新的低精度格式可以支持万亿级Token规模的完整预训练。并且,NVFP4在训练过程中表现出稳定的收敛性,没有通常困扰超低精度训练的不稳定性或发散问题。

精度对比结果

使用NVFP4预训练的模型与更高精度的FP8基线在多个下游任务与智能领域进行了对比。在所有领域中,NVFP4的准确率表现均与FP8相当,甚至在代码领域实现了反超,展现了其有效性。

算力提升与能耗优化

GEMM性能提升

Blackwell Ultra的GEMM性能测量结果显示,相比Hopper代实现了7倍加速。现代大语言模型在本质上依赖矩阵乘法,尤其是在其全连接层或线性层中,矩阵乘法是核心计算元素。FP4精度能够更快、更高效地执行这些运算,所观察到的GEMM加速意味着整个预训练过程都显著加快。

能耗与成本优化

通过减少内存需求、提升算术运算吞吐量、优化通信效率,4比特预训练能够让AI工厂在相同的硬件条件下处理更多的token。这意味着:

  • 模型收敛速度更快
  • 单位算力能运行更多实验
  • 可以训练出前所未有规模的前沿模型
  • 显著降低训练成本和能耗

行业合作与应用前景

合作伙伴

目前,NVFP4训练仍处于研究阶段,正在探索并验证4位精度在大规模模型预训练中的潜力。围绕NVFP4的合作与实验正积极推进,参与方包括:

  • AWS
  • Cohere
  • Google Cloud
  • Kimi AI
  • Microsoft AI
  • Mistral
  • OpenAI
  • Perplexity
  • Reflection
  • Runway

与Jetson Thor的结合

有评论指出,NVFP4与Jetson Thor的结合有望对现实世界的应用产生深远影响。Jetson Thor是英伟达前几日发布的新一代机器人专用芯片,通过大幅提升算力,可以适配具身智能新算法,支持人形机器人等各种形态。

二者的结合,一方面在训练端带来更高的能效与速度优化,另一方面在边缘、推理场景充分利用高性能低功耗的计算能力,最终从训练到部署形成高效的完整闭环。

行业影响与争议

积极评价

对于英伟达在更低位的探索,有网友认可NVFP4在提升训练速度以及降低成本和能耗方面的积极作用,认为其有望推动更多行业进入高效、可持续的AI时代。

质疑声音

不过也有人不买账,针对英伟达声称的更环保(greener),他们认为,虽然新的数据格式带来了种种优化,但并不代表AI的总体算力需求和能耗会因此减少,也无法从根本上改变AI持续扩张造成的能源与资源压力。

技术发展趋势

精度与效率的平衡

随着AI工作负载呈现爆炸式增长,精度格式已经经历了多次革新:从最初的FP32(32位浮点数)到FP16,再到FP8,最近甚至发展到NVIDIA发布的NVFP4。实践表明,像后训练量化(PTQ)这样的方法,已经能够借助NVFP4显著提升推理吞吐量,同时保持准确性。

预训练阶段的突破

然而,在更上游的预训练阶段,挑战依然存在——目前大多数基础模型仍依赖于BF16或FP8来维持稳定性和收敛性。预训练恰恰是AI工厂消耗最多计算力、能耗和时间的环节。NVFP4的突破,为预训练阶段带来了新的可能性。

总结与展望

技术突破的意义

英伟达的NVFP4技术正在重新定义AI训练的格局,并可以为实现速度、效率和有目的创新设立新的标杆。通过实现4比特预训练,NVFP4让AI工厂更快、更可持续地扩展,为全新的生成式AI时代打下基础。

未来发展方向

作为一种动态且不断演进的技术,NVFP4将持续为前沿模型团队创造新的机遇,推动节能高效和高性能的AI发展。凭借计算效率的突破,4比特预训练将赋能更先进的架构、更大规模的训练和token处理,从而为未来的智能系统注入新的动力。

行业竞争格局

值得注意的是,DeepSeek选择在模型端率先采用并公开声明使用UE8M0格式,将其训练与scale策略与该精度绑定。这等于由大模型端主动提出标准,迫使硬件和工具链进行适配,加速了国产软硬件一体化的生态建设。

英伟达此次的NVFP4技术突破,不仅展示了其在AI芯片领域的领先地位,也为整个行业的技术发展提供了新的方向。在AI算力需求持续增长的背景下,如何平衡精度、效率和成本,将成为未来技术竞争的关键。


参考链接:

声明: 本文基于公开信息整理,仅供参考,不构成投资建议。

英伟达 NVFP4 4比特量化 大模型训练 AI芯片