NVIDIA Rubin CPX:率先探索基于分离架构的长上下文AI推理

科学技术

【免责声明】 本文是基于外部来源的信息重新整理的。请在参考本文内容前核实原始来源。

新闻摘要

以下内容已在网上发布。下面提供了翻译摘要。详情请参见原文。

英伟达推出了Rubin CPX,这是一款专为长上下文AI推理工作负载而设计的突破性GPU。Rubin CPX预计将于2026年底左右上市,代表了AI硬件的重大飞跃,提供约30PetaFLOPS的计算性能,并配备128GB的GDDR7内存。它集成在Vera Rubin NVL144 CPX平台上,每个机架提供8ExaFLOPS的AI性能和100TB的快速内存。该GPU针对涉及百万级令牌上下文窗口的工作负载进行了优化,这对于大规模编码和生成视频应用程序至关重要。英伟达的创新解决了AI推理不断增长的需求,推理正成为AI复杂性的新前沿,预计未来两年内用于推理的计算资源将从20%增加到80%。Rubin CPX的分散式推理架构专注于AI推理的”上下文阶段”,标志着大规模上下文处理能力的新时代。

来源: 英伟达

本站解析

背景和环境

Background and Context illustration

英伟达Rubin CPX的亮相标志着AI硬件发展的重要里程碑。随着AI模型的复杂性和能力不断提升,重点已从训练转移到推理——使用训练好的模型进行预测或决策的过程。这一转变带来了新的挑战,特别是在处理需要实时处理大量数据的长上下文工作负载方面。Rubin CPX是英伟达针对这些挑战而推出的产品,旨在处理日益成为尖端AI应用程序基准的百万级令牌上下文窗口

专家分析

Rubin CPX代表了AI硬件设计的范式转变。它专注于分散式推理架构,解决了高效处理长上下文AI工作负载的日益迫切需求。这种方法可以更好地优化推理的不同阶段——上下文和生成,从而可能带来吞吐量、延迟和资源利用率的显著提升。

关键要点:

  • 该GPU提供30PetaFLOPS的计算性能,展示了英伟达致力于推动AI硬件能力边界的决心。
  • 与Vera Rubin NVL144 CPX平台的集成提供每个机架8ExaFLOPS的AI性能,为AI应用程序提供前所未有的规模。
  • 专注于百万级令牌上下文窗口与当前AI模型的最新状态相符,支持软件开发、视频生成和深度研究等复杂任务。

补充数据和事实

Rubin CPX的重要性由当前AI发展趋势所突出:

  • 来自谷歌、Anthropic、OpenAI和Meta的领先AI模型现已支持100万令牌或更多的上下文窗口。
  • 用于推理的计算资源比例预计将在未来两年内从20%增加到80%。
  • 自Rubin CPX以来,分散式推理基础设施的进展包括系统性的大规模研究、可组合的分散式基础设施(CDI)以及NVIDIA Dynamo和Mission Control等软件编排层。

相关新闻

Rubin CPX的推出与行业向更高效和强大的AI基础设施发展的更广泛趋势相一致。它与谷歌的TPU v5e和v5p等发展相呼应,这些也专注于提高AI推理能力。此外,对长上下文处理能力的强调与来自OpenAI、Anthropic和谷歌等公司的大型语言模型的最新进展相呼应,这些进展都在推动上下文窗口大小的边界。

总结

Summary illustration

英伟达的Rubin CPX代表了AI推理硬件的重大飞跃。通过解决长上下文AI工作负载不断增长的需求,它为更复杂和高效的AI应用程序在各个领域铺平了道路。随着推理继续成为AI复杂性的新前沿,像Rubin CPX这样的创新将在塑造AI技术及其现实应用的未来中发挥关键作用。

タイトルとURLをコピーしました