
这项由英伟达北京团队完成的研究揭晓于2024年,,,,,,,现在正在评审中。。。。。有兴趣深入相识的读者可以通过搜索"FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning"盘问完整论文。。。。。
当我们和ChatGPT这样的AI助手对话时,,,,,,,它们的背后是一个极其重大的训练历程。。。。。这就像教一个孩子学语言,,,,,,,不但要教他们明确语言,,,,,,,还要教他们怎样适外地回应。。。。。但问题在于,,,,,,,这种"教学"历程很是耗时耗力,,,,,,,特殊是在"实战训练"阶段——也就是让AI天生大宗对话来训练的环节。。。。。
英伟达的研究团队发明了一个有趣的征象:在AI对话训练中,,,,,,,约莫80%的时间都花在了"天生训练对话"这个环节上,,,,,,,而真正的"学习更新"只占20%。。。。。这就好比一个钢琴学生花80%的时间在弹奏训练曲,,,,,,,只有20%的时间在接受先生的指导和纠正。。。。。显然,,,,,,,若是能让"弹奏训练"的速率加速,,,,,,,整个学习效率就会大大提升。。。。。
研究团队提出了一个巧妙的解决计划:使用一种叫做"FP8"的数据压缩手艺。。。。。这种手艺的焦点头脑就像是把高清照片压缩成较小的文件,,,,,,,在坚持画面质量的同时大大镌汰存储空间和传输时间。。。。。详细来说,,,,,,,他们把原本需要16位数字体现的信息压缩到8位,,,,,,,相当于把文件巨细减半。。。。。
然而,,,,,,,这种"压缩"并不是简朴的缩小。。。。。研究团队面临着几个要害挑战:首先,,,,,,,AI模子的参数在每次学习后都会爆发转变,,,,,,,这意味着压缩计划也需要一直调解,,,,,,,就像每次重新整理行李箱时都要重新妄想空间分派;;;;;;其次,,,,,,,压缩后的AI天生的对话可能与原版有细微差别,,,,,,,这种差别累积起来可能影响学习效果,,,,,,,就像复印件的复印件会逐渐失真一样。。。。。
**一、焦点手艺突破:动态权重同步**
为相识决第一个挑战,,,,,,,研究团队设计了一个"动态更新系统"。。。。。这个系统分为三个阶段,,,,,,,就像一个高效的换装流程。。。。。
在初始化阶段,,,,,,,系统会设置好所有的压缩设置,,,,,,,并对推理引擎举行须要的刷新,,,,,,,使其能够处置惩罚压缩后的数据。。。。。这就像在演出前为演员准备好快速换装的装备和流程。。。。。
在权重同步阶段,,,,,,,每当训练系统完成一轮学习并更新了模子参数后,,,,,,,系统会连忙获取这些新参数,,,,,,,将它们从原来的16位名堂压缩成8位名堂,,,,,,,然后传送给认真天生对话的推理引擎。。。。。这个历程接纳了"分块压缩"手艺,,,,,,,将大的参数矩阵分成128×128的小块,,,,,,,每个小块自力盘算压缩比例,,,,,,,确保压缩精度。。。。。
在推理阶段,,,,,,,推理引擎使用这些压缩后的参数天生新的训练对话。。。。。虽然参数是压缩的,,,,,,,但在现实盘算历程中,,,,,,,激活值(也就是中心盘算效果)仍然是动态压缩的,,,,,,,确保盘算精度。。。。。
这种设计巧妙地平衡了效率和精度。。。。。研究团队选择了E4M3名堂的FP8编码,,,,,,,这种名堂用4位体现指数,,,,,,,3位体现尾数,,,,,,,能够在[-448, 448]的规模内提供足够的精度。。。。。他们还仔细选择了需要压缩的组件:注重力机制的投影层、多层感知机层和专家混淆模子的专家层都被纳入压缩规模,,,,,,,但嵌入层、归一化层和输出投影层则坚持原始精度,,,,,,,由于这些层的压缩可能对天生质量爆发显著影响。。。。。
**二、主要性采样:修正压缩误差**
第二个挑战越发玄妙。。。。。当AI使用压缩参数天生对话时,,,,,,,这些对话可能与使用原始参数天生的对话略有差别。。。。。这种差别会累积,,,,,,,最终可能导致训练效果下降,,,,,,,甚至训练瓦解。。。。。
研究团队接纳了"主要性采样"手艺来解决这个问题。。。。。这种手艺的原理类似于统计视察中的加权处置惩罚。。。。。当我们发明某些样本不敷代表性时,,,,,,,我们会给它们分派差别的权重来修正误差。。。。。
详细来说,,,,,,,系统会盘算每个天生token(单词或字符)在原始模子和压缩模子中的概率比值。。。。。若是压缩模子天生某个token的概率比原始模子低,,,,,,,那么在训练时就会给这个token更高的权重;;;;;;反之则给较低的权重。。。。。这样可以有用修正压缩引入的误差。。。。。
为了避免权重过大导致训练不稳固,,,,,,,研究团队还引入了"截断主要性采样"手艺,,,,,,,将权重限制在合理规模内(详细是2倍以内)。。。。。这就像在调味时设定一个上限,,,,,,,阻止由于太过调味而破损整道菜。。。。。
**三、实验验证:显著的性能提升**
研究团队在两种差别规模的模子上举行了详细测试。。。。。第一个是80亿参数的麋集模子Qwen3-8B-Base,,,,,,,第二个是300亿参数的混淆专家模子Qwen3-30B-A3B-Base。。。。。测试使命是训练AI解决AIME24数学竞赛问题,,,,,,,这是一个极具挑战性的使命,,,,,,,需要重大的推理能力。。。。。
关于80亿参数的麋集模子,,,,,,,FP8压缩手艺带来了10-20%的速率提升。。。。。更主要的是,,,,,,,在训练效果方面,,,,,,,使用FP8压缩的模子在验证准确率、奖励分数和响应长度等要害指标上都与原始模子坚持了高度一致。。。。。这证实晰压缩手艺在坚持性能的同时确实能够显著提升效率。。。。。
研究团队还举行了一个主要的比照实验:他们较量了使用主要性采样修正的FP8模子和不使用修正的FP8模子。。。。。效果显示,,,,,,,不使用修正的模子确实泛起了显着的性能下降,,,,,,,这证实了主要性采样手艺的须要性。。。。。
关于300亿参数的混淆专家模子,,,,,,,性能提升越发显著,,,,,,,抵达了30-50%。。。。。这是由于更大的模子具有更高的算术密度,,,,,,,使得FP8的盘算加速效果越发显着。。。。。同时,,,,,,,镌汰的内存占用释放了大宗GPU显存,,,,,,,这些特另外空间可以用于缓存更多的对话历史,,,,,,,镌汰了因内存缺乏导致的盘算中止,,,,,,,从而进一步提升了整体吞吐量。。。。。
有趣的是,,,,,,,在混淆专家模子的实验中,,,,,,,研究团队视察到一个特殊征象:无论是否使用压缩,,,,,,,模子在训练历程中都会泛起训练-推理不匹配度逐渐增添的趋势。。。。。这是由于混淆专家架构的重大性——差别专家的选择机制在训练和推理系统中可能保存细微差别,,,,,,,随着训练举行这种差别会累积。。。。。不过,,,,,,,主要性采样手艺乐成地控制了这种累积,,,,,,,包管了训练的稳固性。。。。。
**四、扩展手艺:KV缓存压缩**
在长对话场景中,,,,,,,除了模子参数自己,,,,,,,"KV缓存"也是一个主要的内存消耗源。。。。。KV缓存可以明确为AI的"短期影象",,,,,,,它存储了对话中每个词语的上下文信息。。。。。随着对话变长,,,,,,,这个缓存会急剧增添,,,,,,,最终可能导致内存缺乏。。。。。
研究团队将FP8压缩手艺扩展到了KV缓存,,,,,,,这相当于对AI的"影象存储"也举行压缩。。。。。但这里有一个新的挑战:由于模子参数在每次训练后都会更新,,,,,,,用于压缩KV缓存的缩放因子也需要重新盘算。。。。。
他们提出了两种解决计划。。。。。第一种是"推理端校准":使用现代推理引擎内置的动态缩放因子盘算功效,,,,,,,在每次模子更新后触发重新校准。。。。。第二种是"训练端校准":在训练竣事时使用更新后的参数和一部分训练数据重新盘算缩放因子,,,,,,,然后将这些因子同步到推理引擎。。。。。
KV缓存压缩的效果很是显著。。。。。在80亿参数模子的测试中,,,,,,,单独使用KV缓存压缩就能带来38%的速率提升,,,,,,,这比单独的线性层压缩(20%)效果更好。。。。。当两种手艺团结使用时,,,,,,,总体速率提升抵达了44%。。。。。
这种重大的性能提升主要泉源于内存瓶颈的缓解。。。。。在长对话天生场景中,,,,,,,原始的BF16名堂需要大宗内存来存储KV缓存,,,,,,,经常导致请求被中止和重新安排,,,,,,,铺张了大宗盘算资源。。。。。FP8压缩将KV缓存的内存占用减半,,,,,,,有用地将缓存容量翻倍,,,,,,,大大镌汰了中止频率,,,,,,,提升了GPU使用率。。。。。
**五、端到端FP8:完整的解决计划**
前面先容的手艺主要关注"天生训练对话"阶段的加速,,,,,,,而训练阶段仍然使用原始精度。。。。。研究团队进一步探索了端到端的FP8计划,,,,,,,即在训练阶段也使用FP8压缩。。。。。
这种周全的压缩计划带来了三个特殊利益。。。。。首先,,,,,,,FP8训练手艺自己已经在大规模预训练中获得验证,,,,,,,能够在坚持收敛性的同时带来显著的训练加速。。。。。其次,,,,,,,当训练和推理都使用相同精度时,,,,,,,两者之间的漫衍差别会减小,,,,,,,由于消除了精度转换历程中的特殊误差源。。。。。第三,,,,,,,FP8训练可以加速学习阶段的前向和反向撒播,,,,,,,进一步提升端到端效率。。。。。
实验效果证实了这些理论预期。。。。。端到端FP8设置在坚持与BF16基线相当的学习效果的同时,,,,,,,显著降低了训练-推理不匹配度,,,,,,,并将训练时间镌汰了约20%。。。。。虽然相比仅使用FP8推理的设置,,,,,,,不匹配度仍然略高,,,,,,,但这批注精度对齐确实有助于镌汰漫衍误差。。。。。
**六、手艺细节与现实应用**
整个FP8-RL系统已经在veRL生态系统中实现,,,,,,,并支持主流的训练后端(如FSDP和Megatron-LM)和推理引擎(如vLLM和SGLang)。。。。。用户只需要在设置中添加一个简朴的参数就可以启用FP8量化功效。。。。。
为了获得最佳性能,,,,,,,研究团队建议使用CUDA 12.9或更高版本,,,,,,,并启用DeepGEMM库来加速FP8矩阵运算。。。。。在新版本的vLLM和SGLang中,,,,,,,这些优化是默认启用的,,,,,,,用户无需特殊设置。。。。。
系统的适用性还体现在其无邪的设置选项上。。。。。用户可以凭证详细需求选择差别的压缩级别:仅压缩线性层以获得稳固的性能提升,,,,,,,或者同时压缩KV缓存以获得最大的内存节约,,,,,,,甚至可以接纳包括注重力盘算的周全压缩以追求极致性能。。。。。
研究团队特殊强调了主要性采样手艺的须要性。。。。。虽然这会引入一些特另外盘算开销,,,,,,,但这个价钱相比于可能的训练失败危害来说是微缺乏道的。。。。。他们建议所有使用FP8压缩的用户都启用某种形式的不匹配修正机制。。。。。
**七、意义与远景**
这项研究的意义远不止于手艺层面的优化。。。。。随着大语言模子规模的一直增添和应用场景的日益重大,,,,,,,训练效率已经成为制约AI生长的要害瓶颈之一。。。。。特殊是在需要大宗交互数据的强化学习场景中,,,,,,,天生本钱往往占有了总本钱的大头。。。。。
FP8-RL手艺的乐成应用批注,,,,,,,通过全心设计的量化计划和误差修正机制,,,,,,,可以在险些不损失模子性能的条件下大幅提升训练效率。。。。。这不但能够降低训练本钱,,,,,,,还能够使更多的研究者和开发者有能力训练和安排大规模的对话AI系统。。。。。
更普遍地说,,,,,,,这项研究展示了怎样将硬件优化、算法立异和系统工程有机团结,,,,,,,创立出适用的端到端解决计划。。。。。这种跨领域的综合要领关于解决AI系统中的重大手艺挑战具有主要的借鉴意义。。。。。
虽然,,,,,,,这项手艺也尚有进一步生长的空间。。。。。研究团队提到了几个有趣的偏向:探索越发激进的量化名堂(如NVFP4),,,,,,,扩展到更大规模的模子,,,,,,,以及在多轮对话和智能体交互等更重大场景中的应用。。。。。随着硬件手艺的一直演进和算法的一连优化,,,,,,,我们有理由信托这类低精度训练手艺将在未来的AI系统中施展越来越主要的作用。。。。。
说究竟,,,,,,,这项研究为我们展示了一个令人鼓舞的可能性:通过智慧的工程实现和细密的算法设计,,,,,,,我们可以让强盛的AI系统变得越发高效和易于使用。。。。。这不但意味着更低的本钱和更快的逊з度,,,,,,,也意味着AI手艺的普及化水平将进一步提升,,,,,,,让更多的立异想法能够转化为现实应用。。。。。关于正在蓬勃生长的AI生态系统来说,,,,,,,这无疑是一个主要的里程碑。。。。。
Q&A
Q1:FP8压缩手艺会不会影响AI对话的质量????????
A:凭证英伟达团队的实验效果,,,,,,,在准确使用主要性采样修正手艺的情形下,,,,,,,FP8压缩险些不会影响AI的对话质量。。。。。测试显示,,,,,,,压缩后的模子在验证准确率、奖励分数等要害指标上都与原始模子坚持一致,,,,,,,但若是不使用修正手艺,,,,,,,确实会泛起性能下降。。。。。
Q2:为什么混淆专家模子比麋集模子的加速效果更显着????????
A:主要有三个缘故原由:首先,,,,,,,300亿参数的混淆专家模子比80亿参数的麋集模子有更高的算术密度,,,,,,,让FP8的盘算优势更显着;;;;;;其次,,,,,,,更大模子的内存占用更多,,,,,,,压缩后释放的显存空间更大,,,,,,,能够缓存更多对话历史;;;;;;第三,,,,,,,大模子在长文本天生时更容易遇到内存瓶颈,,,,,,,FP8压缩能有用镌汰盘算中止。。。。。
Q3:通俗开发者能使用这个FP8-RL手艺吗????????
A:可以的。。。。。这项手艺已经在v金桥演艺策划有限公司eRL框架中实现,,,,,,,用户只需要在设置文件中添加一个简朴的参数就能启用。。。。。不过需要使用CUDA 12.9或更高版本,,,,,,,并且建议配合主要性采样手艺来包管训练稳固性。。。。。现在支持主流的训练后端如FSDP、Megatron-LM和推理引擎如vLLM、SGLang。。。。。