埃隆-马斯克(Elon Musk)的xAI公司开发的Grok-3于本周一亮相,该公司大胆宣称了自己的能力,同时展示了庞大的计算基础设施,预示着更大的野心。
发布会 主要集中在原始计算能力、基准性能和即将推出的功能上,但许多实际演示都像是其他人工智能公司已经取得的成就的翻版。
展示开始时的主角并不是人工智能本身,而是 "巨像",一个由 20 万个 GPU 组成的巨型集群,为 Grok-3 的训练提供了动力。
该系统分两个阶段完成:在10万个GPU上进行了122天的同步训练,随后又进行了92天的扩展,将GPU数量增加到20万个。据 xAI 开发人员称,事实证明,建立这种基础设施比开发人工智能模型本身更具挑战性。
该公司已经计划建立一个更强大的集群,马斯克表示,他们的目标是将集群容量提高到目前的五倍,从而建立一个地球上最强大的GPU集群。
在性能方面,Grok-3 在标准人工智能基准测试中取得了令人印象深刻的成绩。基础模型(未嵌入思维链和推理的普通模型)在数学(AIME)、科学(GPOA)和编码(LCB)测试中一直名列榜首。
在盲测中,它似乎也很有希望。
xAI 证实,代号为 "巧克力 "的神秘模型实际上是上传到 LLM Arena的 Grok-3 早期测试版本 。
在这些测试中,它在所有 LLM 中取得了最佳 ELO,这意味着用户在不知道自己在评估哪个模型的情况下,更喜欢它的答案,而不是直接竞争的所有其他人工智能模型所提供的答案。
这可能是衡量质量的最准确方法,不会让模型有任何机会 通过在这些数据集上训练其人工智能来欺骗基准 。该基准完全基于数千名匿名用户的偏好和盲选。
Grok-3 的一个专门 "推理 Beta "变体在测试时采用了内部思维链处理和额外计算,在 AIME 2025 基准测试中的数学得分甚至更高,达到了 93%,而其他表现最好的模型则低于 87%。
有趣的是,由于训练时间较长,名为 Grok-3 Mini Reasoning Beta 的较小版本有时会超过其较大的兄弟版本。
换句话说,全尺寸的Grok-3在接受相当长的训练时间后仍有提升空间,鉴于其参数数量更多,这似乎很有希望。
但是,当 xAI 开始现场演示 Grok-3 的功能时,感觉更像是一场追赶而非创新的游戏。该团队展示了该模型解决物理问题和从头开始编写游戏代码的能力--ChatGPT、Claude 和谷歌的 Gemini 早就掌握了这些令人印象深刻的能力。
他们还介绍了 DeepSearch,这是一个研究代理,与 OpenAI 和谷歌的类似工具一样,可以搜索网络并生成有关给定主题的大量报告。
X Premium Plus 用户可以立即访问 Grok-3,但功能最强大的版本和更新版本通常会在专用的独立应用程序或 Grok.com 上发布。
与 OpenAI 的 "高级语音模式" 类似的语音交互将在未来几周内推出,马斯克强调这不是简单的文本到语音,而是一个真正的人工智能语音模型,能够进行自然、富有表现力的语音表达。
开发者将在未来几周内获得 API 访问权限,同时还将获得音频转录功能,这将使 Grok-3 成为第三方人工智能应用程序的强大工具。
在展示了由Grok生成的俄罗斯方块游戏之后,xAI还透露了成立人工智能游戏工作室的计划,开发者可以利用Grok-3开发游戏。
目前,这种模式正在慢慢推广。截至发稿时, Decrypt 还没有获得该模型的使用权,但一些爱好者已经试用过,并对效果表示满意。
计算机科学家莱克斯-弗里德曼(Lex Friedman)是人工智能领域呼声最高的人之一,他对 Grok-3 的能力大加赞赏。
其他人则将其与市场上的主要竞争对手进行了比较。
"前 OpenAI 联合创始人安德烈-卡帕奇(Andrej Karpathy)在 X 上发表的一篇文章中写道:"Grok 3 + Thinking 感觉与 OpenAI 的最强型号(o1-pro,200 美元/月)的技术水平差不多,比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 稍强。
X 用户 Penny2x 分享了一款用 Grok-3 从零开始制作的游戏--一款类似于《马里奥兄弟》的 2d 平台游戏。
他们对 Grok 理解指令并在多次迭代后进行改进的能力印象深刻。
"他在 X 上发表的一篇 文章中写道:"我只是不停地要求调整,它就能把游戏生成一个文件,我可以把它放在桌面上运行。 我们生活在未来。现在人人都是开发者。
该游戏可在 Thank Doge网站上进行测试 。
该公司还确认,计划在 Grok-3 完全成熟并正常运行后开源 Grok-2,预计将在未来几个月内实现。
xAI 此前曾在 Grok-2 之后开源了其模型,延续了发布旧版本以刺激创新的趋势--尽管 Grok-2 已落后于顶级模型。
就目前而言,Grok-3 似乎能与最好的人工智能模型相媲美。
真正的考验将在未来几周 xAI 推出其承诺的语音功能、游戏工具和 API 访问权限时到来。现在,球在 OpenAI 的球场上, 它即将发布 GPT-4.5 。
编辑:Sebastian Sinclair
© 2025 DeFi.io