芯片制造商英伟达(Nvidia)周一宣布,其Spectrum-X网络技术已帮助初创公司xAI扩展了Colossus超级计算机,该计算机现已被公认为全球最大的人工智能培训集群。
Colossus位于田纳西州孟菲斯市,是第三代Grok的训练场,Grok是xAI开发的一套大型语言模型,用于为X Premium用户提供聊天机器人功能。
Colossus 仅用了122天就 完工了 ,安装19天后就开始训练第一批模型。英伟达(Nvidia)在 周一 的一份 声明 中表示,科技亿万富翁埃隆-马斯克(Elon Musk)的初创公司 xAI 计划将该系统的容量增加一倍,达到 20 万个 GPU 。
Colossus的核心是一个巨大的GPU互联系统,每个GPU都专门处理大型数据集。在训练 Grok 模型时,它们需要分析大量的文本、图像和数据,以提高反应速度。
Colossus被马斯克称为 世界上最强大的人工智能训练集群,它使用统一的远程直接内存访问网络连接了10万个英伟达Hopper GPU。英伟达的Hopper GPU通过在多个GPU上分离工作负载并进行并行处理来处理复杂的任务。
该架构允许数据在节点之间直接移动,绕过了操作系统,确保了低延迟以及大量人工智能训练任务的最佳吞吐量。
传统的以太网网络经常出现拥塞和丢包现象,将吞吐量限制在 60%,而 Spectrum-X 可实现 95% 的吞吐量,且无延迟衰减。
Spectrum-X 允许大量 GPU 更顺畅地相互通信,因为传统网络可能会因数据过多而停滞不前。
这项技术使 Grok 的训练速度更快、更准确,这对于建立能有效响应人类交互的人工智能模型至关重要。
周一的公告对 Nvidia 的股价影响不大,股价略有下跌。截至周一,该公司股价为 141 美元,市值为 3.45 万亿美元。
编辑:Sebastian Sinclair
© 2025 DeFi.io