グループ相対政策最適化

科学・技術

NVIDIAの新ツールが数学の達人のように考えるAIを育成

「NVIDIAのNeMo-RLが強化学習を使って、OpenAIのO1と同等の実力を持つ、複雑な数学問題を解ける AIモデルを訓練する方法を発見」