一个在考试前就记住答案的模型到底有多智能?这是OpenAI在12月推出o3并吹嘘其模型令人印象深刻的基准之后所面临的问题。当时,一些专家称赞它几乎与 AGI 一样强大,AGI 是指人工智能能够在用户要求的任何任务上实现与人类相同的性能。
但金钱可以改变一切,甚至数学考试也不例外。
OpenAI的o3模型在FrontierMath(一项由Epoch AI开发的具有挑战性的数学基准测试)上取得了25.2%的惊人成绩,这让OpenAI的胜利大步向前。
"Epoch AI在FrontierMath白皮书的更新脚注中写道:"我们感谢OpenAI对我们创建基准的支持。
更糟糕的是,OpenAI 不仅为 FrontierMath 的开发提供了资金,而且还可以随意使用其问题和解决方案。Epoch AI 后来透露,OpenAI 雇用该公司提供 300 个数学问题及其解决方案。
"Epoch 周四表示:"与典型的委托工作一样,OpenAI 保留对这些问题的所有权,并可以访问这些问题和解决方案。
OpenAI 和 Epoch 都没有回复Decrypt 的置评请求。不过,Epoch 表示,OpenAI 事先签署了一份合同,表明不会使用其数据库中的问题和答案来训练其 o3 模型。
The Information最先报道了此事。
虽然OpenAI的发言人坚称OpenAI没有直接在基准测试中训练o3,而且问题是 "强烈保密的"(这意味着OpenAI无法获得部分问题),但专家们指出,获得测试材料仍然可以通过迭代调整来优化性能。
Epoch AI 公司副总监塔马伊-贝西罗格卢(Tamay Besiroglu)说,OpenAI 最初要求不要透露它与 Epoch 的财务关系。
"他在一篇文章中写道:"我们受到限制,直到 o3 推出前后才得以披露双方的合作关系,事后看来,我们本应更加努力地进行谈判,以便能够尽快向基准贡献者透明。"他在帖子中写道:"我们的合同明确禁止我们披露资金来源的信息,以及 OpenAI 拥有大部分数据集的数据访问权这一事实。
Tamay说,OpenAI表示不会使用Epoch AI的问题和解决方案,但并没有签署任何法律合同来确保这一点得到执行。"他写道:"我们承认,OpenAI确实可以使用FrontierMath的大部分问题和解决方案。"不过,我们有一项口头协议,即这些材料不会被用于模型训练。"
虽然听起来有些蹊跷,但 Epoch AI 的首席数学家埃利奥特-格拉泽(Elliot Glazer)表示,他相信 OpenAI 是言出必行的:"我个人的观点是,OAI 的得分是合法的(即他们没有在数据集上进行训练),他们没有动机在内部基准性能方面撒谎。"他在 Reddit 上发布了这样的帖子。
这位研究人员还在 Twitter 上回应了这一情况,并分享了在线论坛 Less Wrong 中有关这一问题的在线辩论链接。
这场争议超出了 OpenAI 的范围,指向了人工智能行业如何验证进步的系统性问题。人工智能研究人员路易斯-亨特(Louis Hunt)最近进行的一项调查显示,包括Mistral 7b、谷歌的Gemma、微软的Phi-3、Meta的Llama-3和阿里巴巴的Qwen 2.5在内的其他顶级性能模型能够逐字复制6882页的MMLU和GSM8K基准。
MMLU 是一项合成基准测试,与 FrontierMath 类似,用于衡量模型在多任务处理方面的能力。GSM8K 是一组数学问题,用于衡量 LLM 在数学方面的熟练程度。
这使得我们无法正确评估他们的模型到底有多强大或准确。这就好比给一个记忆力超强的学生列出下一次考试的问题和解题思路;他们是通过推理得出解题思路,还是只是简单地吐出记忆中的答案?既然这些测试是为了证明人工智能模型能够进行推理,你就能明白其中的猫腻了。
"RemBrain 创始人瓦西里-莫尔扎科夫(Vasily Morzhakov)警告说:"这实际上是一个非常大的问题。"模型的指令版本在 MMLU 和 GSM8K 测试中进行了测试。但事实上,基础模型可以再生测试--这意味着这些测试已经在预训练中了。"
展望未来,Epoch 表示计划实施一套 "保留集",其中包括 50 个随机选择的问题,这些问题将不对 OpenAI 开放,以确保真正的测试能力。
但是,创建真正独立的评估仍面临巨大挑战。计算机科学家德克-罗克曼(Dirk Roeckmann)认为,理想的测试需要 "一个中立的沙盒,而这并不容易实现",他还补充说,即便如此,也存在 "敌对人类泄露测试数据 "的风险。
编辑:安德鲁-海沃德
© 2025 DeFi.io