本周三,一个由来自顶尖学术机构和科技公司的国际研究人员组成的团队颠覆了人工智能推理的格局,其新模型与中国最复杂的人工智能系统之一不相上下,甚至有所超越:DeepSeek。
Open Thoughts 联盟开发的 OpenThinker-32B 在 MATH500 基准测试中取得了 90.6% 的准确率,超过了 DeepSeek 的 89.4%。
该模型在一般问题解决任务上的表现也超过了DeepSeek,在GPQA-Diamond基准测试中获得了61.6分,而DeepSeek只有57.6分。在 LCBv2 基准测试中,它取得了 68.9 的高分,在各种测试场景中都表现出了强劲的性能。
换句话说,它在一般科学知识(GPQA-Diamond)方面的表现优于同等大小的 DeepSeek R1。它还在 MATH500 测试中击败了 DeepSeek,但在 AIME 基准测试中却败下阵来--这两项测试都是为了衡量数学能力。
在编码方面,它也比 DeepSeek 稍逊一筹,得分为 68.9 分对 71.2 分,但由于该模型是开源的,一旦人们开始改进它,所有这些分数都会大幅提高。
这项成果的与众不同之处在于它的效率:OpenThinker 只需要 11.4 万个训练示例就能取得这样的成绩,而 DeepSeek 则需要 80 万个。
OpenThoughts-114k 数据集包含每个问题的详细元数据:基本真实解决方案、代码问题的测试用例、所需的启动代码以及特定领域的信息。
其定制的 Curator 框架根据测试用例验证代码解决方案,而人工智能法官则负责数学验证。
该团队报告说,他们使用了四个节点,配备了八个 H100 GPU,耗时约 90 小时。在意大利莱昂纳多超级计算机上训练的另一个数据集有 137,000 个未经验证的样本,仅用了 30 个小时就耗费了 11,520 个 A100 小时。
"该团队在他们的文档中指出:"验证有助于在扩大训练提示的多样性和规模的同时保持质量。研究表明,即使未经验证的版本也表现出色,尽管它们无法与经过验证的模型的峰值结果相媲美。
该模型是在阿里巴巴的 Qwen2.5-32B-Instruct LLM 基础上构建的,支持 16,000 个令牌的上下文窗口,足以处理复杂的数学证明和冗长的编码问题,但比现行标准要少得多。
这一版本的发布正值人工智能推理能力竞争日趋激烈之际,这种竞争似乎正在以思维的速度发生。OpenAI 于 2 月 12 日宣布,GPT-5 之后的所有模型都将具备推理能力。一天后,埃隆-马斯克(Elon Musk)大肆宣传 xAI 的 Grok-3 增强了解决问题的能力,并承诺它将是迄今为止最好的推理模型。就在几小时前,Nous Research 发布了另一款开源推理模型 DeepHermes,它基于 Meta 的 Llama 3.1。
DeepSeek 的性能与 OpenAI 的 o1 不相上下,而成本却大大降低,因此该领域的发展势头迅猛。DeepSeek R1 可免费下载、使用和修改,其训练技术也已公开。
然而,与决定开源一切的 Open Thoughts 不同,DeepSeek 开发团队对训练数据保密。
这一关键区别意味着开发人员可能比 DeepSeek 更容易理解 OpenThinker 并从头开始复制其结果,因为他们可以获得所有的拼图碎片。
对于更广泛的人工智能社区来说,这次发布再次证明了在没有大量专有数据集的情况下构建有竞争力模型的可行性。此外,对于那些还不确定是否要使用中国模型(无论是否开源)的西方开发者来说,OpenThinker 可能是一个更值得信赖的竞争对手。
OpenThinker 可在 HuggingFace 网站下载。此外,还有一个更小、功能更弱的 7B 参数模型,适用于低端设备。
Open Thoughts 团队汇集了来自斯坦福大学、伯克利大学、加州大学洛杉矶分校等美国大学以及德国尤里希超级计算中心的研究人员。总部设在美国的丰田研究所和欧盟人工智能领域的其他参与者也对其表示支持。
编辑:Josh Quittner 和 Sebastian Sinclair
© 2025 DeFi.io