【免责声明】 本文是基于外部来源的信息重新整理的。请在参考本文内容前核实原始来源。
新闻摘要
以下内容已在网上发布。下面提供了翻译后的摘要。有关详细信息,请参阅原文。
英伟达宣布了一项突破性技术”螺旋并行”,大幅提高了人工智能处理海量信息的能力。这一创新使人工智能模型能够处理数百万个标记(相当于阅读整部百科全书)的上下文,同时保持实时响应速度。这项技术解决了人工智能处理中的两大瓶颈:键值缓存流和前馈网络权重加载。通过借鉴DNA双螺旋结构的独特方法,螺旋并行技术可以在相同速度下提供高达32倍的并发用户量,这意味着人工智能助手可以为更多人提供更快的服务,同时保持数月对话的上下文,分析大量法律文件,或浏览庞大的代码库。这项技术专门针对英伟达的Blackwell系统设计,代表了使人工智能在需要广博知识和即时响应的实际应用中更加实用的重大进步。
来源: 英伟达开发者博客
本站解析
背景和环境
将人工智能比作一个试图阅读和理解大部头教科书并回答问题的学生。传统的人工智能模型在需要记住大量信息时会遇到困难,就像试图在头脑中保持整部百科全书的内容,同时进行对话交流。标记是人工智能用来理解文本(如单词或词的一部分)的基本单位,现代人工智能应用需要同时处理数百万个标记。
这个挑战类似于拥有一个超级快速的读者,需要不断地翻阅数千页才能回答每个问题。每次人工智能生成响应时,它都必须访问之前所有内容的记忆,这就是所谓的键值缓存。当对话变长或文档变大时,这种持续的内存访问就会成为一个主要的瓶颈,就像高速公路上的交通拥堵。
专家分析
英伟达的解决方案很巧妙:他们创造了螺旋并行,它就像有多个协调工作的读者。与其让一台计算机处理所有任务,螺旋并行将工作智能地分散到多个GPU(图形处理单元,即运行人工智能的强大芯片)上。
这项创新在于螺旋如何管理两种不同类型的工作:注意力(理解上下文)和前馈网络(信息处理)。这就像有一个团队,有些成员专注于研究,而其他人则专注于写作,但他们可以立即切换角色,而不会浪费时间。这种灵活性使同一组GPU能够最佳地处理不同任务,避免了减慢传统方法的瓶颈。
补充数据和事实
性能提升是显著的。根据英伟达在Blackwell硬件上的模拟:
? 32倍的并发用户量提升,在相同速度下可服务更多用户
? 1.5倍的响应时间提升,在低流量场景下个人用户的响应更快
? 能够处理100万个标记的上下文(相当于75万字或一本很厚的书)
这些改进意味着人工智能助手可以保持数月的对话历史,律师可以立即分析大量案件文件,程序员可以获得巨大代码库的帮助,同时仍能像当前人工智能系统处理小任务一样快速响应。
相关新闻
这一发展正值人工智能公司争相创造更强大模型之时。OpenAI、谷歌和Anthropic都一直在努力扩展上下文窗口(人工智能一次可以考虑的信息量)。英伟达的硬件-软件方法为他们提供了独特的优势,因为它可以优化芯片和算法。
这项技术建立在英伟达在人工智能硬件方面的主导地位之上,他们的GPU为世界上大部分人工智能训练和推理提供动力。代表其最新一代人工智能专用芯片的Blackwell架构,具有FP4计算(一种超高效的计算方式)和芯片之间高带宽连接等功能。
总结
螺旋并行技术代表了使人工智能更智能和更快的重大突破。通过解决限制人工智能处理大型上下文能力的内存瓶颈问题,英伟达为更复杂的人工智能应用开辟了道路。这意味着未来的人工智能助手不仅能给出快速答复,还能理解和推理大量信息,同时仍能即时响应。
对于普通用户来说,这意味着人工智能可以记住整个数月的对话,帮助复杂的研究项目,或在不减速的情况下协助大规模分析。随着这项技术在实际产品中可用,我们可以期待人工智能助手在需要深入理解大量信息的任务中变得更加有用。
公众反应
开发者社区对螺旋并行技术表现出了浓厚的兴趣,特别是那些从事大型语言模型应用的人。许多人都迫切想看到这项技术如何融入流行的人工智能框架。为多用户提供更低成本的服务扩展能力引起了寻求扩展人工智能服务的公司的关注。然而,一些开发人员指出,充分利用螺旋并行将需要访问英伟达最新的Blackwell硬件,这可能会限制最初的采用仅限于资金充足的组织。
常见问题解答
问:什么是”百万级标记”?
答:标记就像文本的拼图块。一百万个标记大约相当于75万个单词,就像能够在对话中同时记住整个哈利·波特系列的内容!
问:这如何帮助普通人使用人工智能?
答:这意味着人工智能助手可以记住更长的对话,快速分析大量文档,并同时为更多人提供服务而不会减速。可以把它想象成从便签本升级到超级计算机的内存。
问:这项技术什么时候会推出?
答:英伟达还没有公布具体的发布日期,但他们提到将尽快将这些优化应用于推理框架。它可能首先出现在企业和云端人工智能服务中,然后才会进入消费者应用。