NVIDIA新工具教会AI像数学冠军一样思考

科学技术

【免责声明】 本文是基于外部来源的信息重新整理的。请在参考本文内容前核实原始来源。

新闻摘要

以下内容已在网上发布。下面提供了翻译后的摘要。有关详细信息,请参阅原文。

英伟达发布了开源库NeMo-RL,它利用强化学习训练AI模型来解决复杂问题。该文章演示了如何使用群相对策略优化(GRPO)复现DeepScaleR配方,训练Qwen-1.5B模型以匹配OpenAI O1在困难数学问题上的表现。NeMo-RL旨在从单GPU原型扩展到千GPU部署,并与Hugging Face模型实现本地集成,具有灵活的后端架构。该库支持多种训练和生成后端,包括用于生成的vLLM和用于训练的PyTorch。该教程展示了一个三步过程:从8K逐步增加到16K再到24K令牌的上下文长度进行训练。结果显示,该模型在仅400个步骤内就达到了0.65的训练奖励,最终超越了OpenAI O1在AIME24数学竞赛基准测试中的表现。这表明,强化学习可以教会AI模型像人类一样逐步推理解决复杂问题。

来源: 英伟达开发者博客

本站解析

背景和环境

Background and Context illustration

想想你是如何学会骑自行车的。你并不是仅仅阅读相关知识,而是尝试、摔倒、重新站起,通过不断练习逐步进步。这就是强化学习(RL)为AI所做的事情。它是一种通过让计算机尝试、从错误中学习,并对正确行为给予奖励的方式来教会计算机的方法。

英伟达的NeMo-RL就像是一个AI模型的训练场馆,在这里它们可以练习解决非常困难的问题,尤其是那些连最聪明的学生都难以解决的数学问题。其目标是创造出不仅会背诵答案,而且能够像人类数学家一样逐步推理解决问题的AI。

专家分析

NeMo-RL的特别之处在于它教会AI使用链式推理(CoT)。想象一下解决一个复杂的数学问题,你并不会直接跳到答案,而是一步一步地工作,检查你的逻辑。这就是这些AI模型正在学习去做的事情。

其中的巧妙之处在于训练策略。就像你不会从微积分开始学习数学一样,NeMo-RL从较短的问题(8K令牌,约6,000字)开始,逐步过渡到更长的问题(24K令牌,约18,000字)。这种渐进式的方法就像是先跑5公里,然后10公里,最后半马来训练马拉松一样。

GRPO(群相对策略优化)算法就是秘诀所在。它就像一位非常聪明的教练,知道何时该更加努力地推动AI,何时该让它巩固所学。这有助于AI比传统训练方法更快地进步。

补充数据和事实

其结果确实令人印象深刻:

• 在仅400个步骤内就达到了0.65的训练奖励(学习速度非常快!)

• 最终超越了OpenAI O1在AIME24(美国邀请数学考试)上的表现

• 可无缝扩展从1个GPU到1,000多个GPU

• 可处理高达320亿参数的模型(这是一个非常庞大的”人工大脑”!)

AIME可不是个简单的考试 – 这是一个面向高中生的著名数学竞赛,能答对几个问题就已经很出色了。事实上,这个AI能在这个水平上竞争,显示了强化学习的强大威力。

相关新闻

这一发展是一个更大趋势的一部分,即AI公司正在从简单的问题回答转向能真正推理的模型。OpenAI的O1和DeepSeek-R1是类似的”推理模型”,它们能够思考问题,而不仅仅是模式匹配。

NeMo-RL作为开源的发布意义重大,因为它使这些先进的训练技术民主化了。以前只有大型科技公司才有资源训练推理模型,现在研究人员和小公司也可以尝试这些方法,从而加速整个AI领域的发展。这符合英伟达提供工具帮助整个AI生态系统发展的策略。

总结

Summary illustration

NeMo-RL代表了教会AI思考而不仅仅是记忆的重大进步。通过使用强化学习在复杂的数学问题上训练模型,英伟达创造了一个能够以竞赛水平进行逐步推理的工具。

对于对AI感兴趣的学生来说,这表明这个领域正在不断发展。我们正从单纯检索信息的AI转向能够有条不紊地解决问题的AI。它开源的事实意味着明天的AI开发者 – 也许包括你 – 可以使用这些技术创造出更智能的系统。无论你对数学、科学还是任何需要复杂推理的领域感兴趣,像NeMo-RL这样的工具都为能真正帮助我们解决困难问题的AI助手铺平了道路。

公众反应

AI研究界对NeMo-RL的发布反响热烈。开发者赞赏它与Hugging Face模型的无缝集成,以及从小型实验到大规模部署的扩展能力。一些研究人员已经开始尝试DeepScaleR配方,并在网上分享了他们的结果。然而,也有人指出训练这些模型的计算要求仍然很高,限制了只有拥有大量GPU资源的人才能使用。开源性质受到了特别的赞扬,许多人认为这是朝着民主化先进AI研究的积极一步。

常见问题解答

问: 简单来说,什么是强化学习?
答: 它就像训练宠物一样 – 你奖励好的行为,AI就会学会重复那些能获得奖励的行为。随着时间的推移,它会变得非常擅长实现自己的目标。

问: 为什么解决数学问题对AI很重要?
答: 数学需要逻辑思维和逐步推理。如果AI能掌握这一点,它就可以将类似的推理应用到科学、工程和日常生活中的其他复杂问题。

问: 任何人都可以使用NeMo-RL吗?
答: 是的!它是开源的,意味着可以免费使用。但是,你需要访问GPU(特殊的计算机芯片)才能有效地运行它,这对于大型模型来说可能会很昂贵。

タイトルとURLをコピーしました