NVIDIA Rubin CPX：率先探索基于分离架构的长上下文AI推理

【免责声明】 本文是基于外部来源的信息重新整理的。请在参考本文内容前核实原始来源。

新闻摘要
本站解析

新闻摘要

以下内容已在网上发布。下面提供了翻译摘要。详情请参见原文。

英伟达推出了Rubin CPX,这是一款专为长上下文AI推理工作负载而设计的突破性GPU。Rubin CPX预计将于2026年底左右上市,代表了AI硬件的重大飞跃,提供约30PetaFLOPS的计算性能,并配备128GB的GDDR7内存。它集成在Vera Rubin NVL144 CPX平台上,每个机架提供8ExaFLOPS的AI性能和100TB的快速内存。该GPU针对涉及百万级令牌上下文窗口的工作负载进行了优化,这对于大规模编码和生成视频应用程序至关重要。英伟达的创新解决了AI推理不断增长的需求,推理正成为AI复杂性的新前沿,预计未来两年内用于推理的计算资源将从20%增加到80%。Rubin CPX的分散式推理架构专注于AI推理的”上下文阶段”,标志着大规模上下文处理能力的新时代。

来源: 英伟达

本站解析

背景和环境

英伟达Rubin CPX的亮相标志着AI硬件发展的重要里程碑。随着AI模型的复杂性和能力不断提升,重点已从训练转移到推理——使用训练好的模型进行预测或决策的过程。这一转变带来了新的挑战,特别是在处理需要实时处理大量数据的长上下文工作负载方面。Rubin CPX是英伟达针对这些挑战而推出的产品,旨在处理日益成为尖端AI应用程序基准的百万级令牌上下文窗口。

专家分析

Rubin CPX代表了AI硬件设计的范式转变。它专注于分散式推理架构,解决了高效处理长上下文AI工作负载的日益迫切需求。这种方法可以更好地优化推理的不同阶段——上下文和生成,从而可能带来吞吐量、延迟和资源利用率的显著提升。

关键要点:

该GPU提供30PetaFLOPS的计算性能,展示了英伟达致力于推动AI硬件能力边界的决心。
与Vera Rubin NVL144 CPX平台的集成提供每个机架8ExaFLOPS的AI性能,为AI应用程序提供前所未有的规模。
专注于百万级令牌上下文窗口与当前AI模型的最新状态相符,支持软件开发、视频生成和深度研究等复杂任务。

补充数据和事实

Rubin CPX的重要性由当前AI发展趋势所突出:

来自谷歌、Anthropic、OpenAI和Meta的领先AI模型现已支持100万令牌或更多的上下文窗口。
用于推理的计算资源比例预计将在未来两年内从20%增加到80%。
自Rubin CPX以来,分散式推理基础设施的进展包括系统性的大规模研究、可组合的分散式基础设施(CDI)以及NVIDIA Dynamo和Mission Control等软件编排层。