OpenAI的最新人工智能模型系列实现了许多人认为不可能实现的目标,在极具挑战性的所谓 "自主研究合作人工通用智能"(Autonomous Research Collaborative Artificial General Intelligence)基准测试中取得了前所未有的87.5%的高分--基本上接近理论上可被视为 "人类 "的最低门槛。
ARC-AGI 基准测试的是一个模型在多大程度上接近实现人工通用智能,这意味着它是否能像人类一样在不同情况下思考、解决问题和适应......即使它没有接受过相关训练。这个基准对人类来说非常容易,但对机器来说却极难理解和解决。
作为 "OpenAI 12 天 "活动的一部分,这家位于旧金山的人工智能研究公司上周发布了 o3 和 o3-mini,而就在几天前,谷歌刚刚发布了自己的 o1 竞争对手。这次发布表明,OpenAI 即将推出的模型比预期更接近人工通用智能。
OpenAI 以推理为重点的新模型标志着人工智能系统处理复杂推理的方式发生了根本性转变。与依赖模式匹配的传统大型语言模型不同,o3 引入了一种新颖的 "程序合成 "方法,使其能够解决以前从未遇到过的全新问题。
"ARC 团队在评估报告中指出:"这不仅仅是渐进式的改进,而是真正的突破。ARC 奖联合创始人弗朗索瓦-乔莱(Francois Chollet)在一篇博客文章中更进一步指出:"o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。
作为参考,以下是 ARC Prize 对其成绩的评价:"研究中人类的平均正确率在 73.3% 到 77.2% 之间(公共训练集平均正确率:76.2%;公共评估集平均正确率:64.2%)"。
OpenAI o3 使用高计算设备取得了 88.5% 的得分。这一成绩遥遥领先于现有的任何其他人工智能模型。
尽管成绩斐然,但 ARC 奖委员会和其他专家表示,AGI 尚未实现,因此 100 万美元奖金仍无人认领。但是,对于 o3 是否达到了 AGI 基准,整个人工智能行业的专家意见并不一致。
包括乔莱本人在内的一些人对基准测试本身是否是衡量一个模型是否接近真正的、人类水平的问题解决的最佳标准提出了质疑:"Chollet 说:"通过 ARC-AGI 并不等同于实现了 AGI,事实上,我认为 O3 还不是 AGI。"O3在一些非常简单的任务上仍然失败,这表明它与人类智能存在根本差异。
他提到了更新版本的 AGI 基准,他说,该基准可以更准确地衡量人工智能与人类推理能力的接近程度。Chollet 指出:"早期数据显示,即将推出的 ARC-AGI-2 基准仍将对 o3 构成巨大挑战,即使在高计算能力下,也有可能将其得分降至 30% 以下(而聪明的人类在未经训练的情况下仍能获得 95% 以上的得分)。
其他怀疑论者甚至声称,OpenAI 有效地操纵了测试。"o3等模型使用了规划技巧。它们列出了提高准确率的步骤("刮板"),但它们仍然是高级文本预测器。例如,当o3'计算字母'时,它生成的是关于计算的文本,而不是真正的推理,"Zeroqode的联合创始人莱文-特里扬(Levon Terteryan)在X上写道。
其他人工智能科学家也持类似观点,比如屡获殊荣的人工智能研究员梅兰妮-米切尔(Melanie Mitchel)就认为,o3 并非真正的推理,而是在进行 "启发式搜索"。
Chollet 等人指出,OpenAI 对其模型的运作方式并不透明。米切尔说,这些模型似乎是在不同的思维链过程中训练出来的,"其方式也许与阿尔法零式的蒙特卡洛树搜索并无太大区别"。换句话说,它不知道如何解决新问题,而是在庞大的知识库中应用最可能的思维链,直到成功找到解决方案。
换句话说,o3 并不具备真正的创造力--它只是依靠庞大的知识库,通过试错找到解决方案。
"o3 依靠极强的计算能力达到了它的非官方分数,"Humanity Unchained AI 播客主持人杰夫-乔伊斯(Jeff Joyce)在 Linkedin 上辩称。"真正的人工智能需要高效地解决问题。即使拥有无限的资源,o3 也无法破解人类认为容易的 100 多道难题。"
OpenAI 研究员瓦希迪-卡兹米(Vahidi Kazemi)属于 "这就是 AGI "阵营。他说,"在我看来,我们已经实现了 AGI。"他指着早期的 o1 模型说,他认为该模型是第一个设计用于推理的模型,而不仅仅是预测下一个令牌。
他将其与科学方法论相提并论,认为既然科学本身依赖于系统的、可重复的步骤来验证假设,那么仅仅因为人工智能模型遵循了一套预定的指令就将其视为非人工智能是不一致的。他写道,OpenAI "在任何任务上都没有做到'比人类更好'"。
OpenAI 首席执行官山姆-奥特曼(Sam Altman)则没有对是否已经实现 AGI 表态。他只是说:"o3 是一个非常非常聪明的模型,"而 "o3 mini 是一个非常聪明的模型,但性能和成本都非常好。
智能可能还不足以宣称 AGI 已经实现--至少现在还不能。但请继续关注:"我们认为这是人工智能下一阶段的开端,"他补充道。
编辑:安德鲁-海沃德
© 2025 DeFi.io