OpenAI 通过提前发布 o3-Mini 反击 DeepSeek AI--对比如下

2025-02-01 14:44:59 UTC
OpenAI 通过提前发布 o3-Mini 反击 DeepSeek AI--对比如下

OpenAI的o3-mini发布之际,DeepSeek的超高效R1模型引发了数万亿美元的技术抛售,并重塑了人工智能的格局。

OpenAI急于捍卫自己的市场地位,于周五发布了o3-mini,这是对中国初创公司DeepSeek的R1模型的直接回应,后者以极低的计算成本实现了顶级性能,在人工智能行业引起了震动。

"OpenAI 在官方博文中表示:"我们将发布 OpenAI o3-mini,它是我们推理系列中最新、最具成本效益的型号,今天可在 ChatGPT 和 API 中使用。"这款强大而快速的模型将于 2024 年 12 月预览,在保持 OpenAI o1-mini 的低成本和低延迟的同时,它将推进小型模型所能实现的极限(......)"。

OpenAI还首次向用户免费提供推理能力,同时将付费用户的每日消息限制提高了两倍,从50条增加到150条,以提高新推理模型系列的使用率。

与 GPT-4o 和 GPT 系列模型不同,"o "系列人工智能模型专注于推理任务。它们的创造性较低,但具有嵌入式的思维推理链,使它们更有能力解决复杂问题、回溯错误的分析以及构建更好的结构代码。

在最高级别上,OpenAI 有两个主要的人工智能模型系列:生成式预训练变换器(GPT)和 "Omni"(o)。

新的 o3 mini 有三个版本--低、中、高。这些子类别将为用户提供更好的答案,以换取更多的 "推理"(对于需要按令牌付费的开发者来说,推理的成本更高)。

以效率为目标的 OpenAI o3-mini 在常识和多语言思维链方面不如 OpenAI o1-mini,但在编码或事实性等其他任务方面得分更高。所有其他模型(o3-mini 中级和 o3-mini 高级)在每个基准测试中都击败了 OpenAI o1-mini。

DeepSeek 的突破性进展只用了 OpenAI 旗舰模型的一小部分计算能力,却取得了比 OpenAI 旗舰模型更好的成绩,这引发了一场大规模的科技股抛售潮,美国股市损失近 1 万亿美元。由于投资者质疑其昂贵的人工智能芯片的未来需求,仅英伟达一家公司的市值就缩水了 6000 亿美元。

效率差距源于DeepSeek在模型架构上的新方法。

当美国公司专注于在人工智能开发中投入更多计算能力时,DeepSeek 的团队找到了简化模型处理信息的方法,使其更有效率。中国科技巨头阿里巴巴发布了Qwen2.5 Max,这是一款比DeepSeek作为基础的模型能力更强的模型,为中国人工智能创新的新浪潮开辟了道路,竞争压力也随之加剧。

OpenAI o3-mini 试图再次拉大这一差距。新机型的运行速度比上一代产品快 24%,在关键基准测试中与旧机型不相上下,甚至更胜一筹,同时运行成本更低。

其定价也更具竞争力。OpenAI o3-mini 的价格--每百万输入代币 0.55 美元,每百万输出代币 4.40 美元--比 DeepSeek 的 R1 价格高出很多(相同数量的价格分别为 0.14 美元和 2.19 美元),但是,它们缩小了 OpenAI 与 DeepSeek 之间的差距,与运行 OpenAI o1 的价格相比,也是一个重大的削减。

这可能是其成功的关键所在。OpenAI o3-mini是闭源的,不像DeepSeek R1是免费的,但对于那些愿意付费在托管服务器上使用的人来说,其吸引力会根据用途而增加。

OpenAI o3 mini-medium在AIME数学问题基准测试中获得79.6分。DeepSeek R1 得分为 79.8 分,仅次于该系列中功能最强大的 OpenAI minio-o3 high,后者得分为 87.3 分。

在其他基准测试中也可以看到相同的模式:在衡量不同科学学科能力的 GPQA 分数中,DeepSeek R1 为 71.5 分,o3-mini low 为 70.6 分,o3-mini high 为 79.7 分。R1 在编码任务基准 Codeforces 中处于 96.3 百分位,而 o3-mini low 处于 93 百分位,o3-mini high 处于 97 百分位。

因此,差异是存在的,但就基准而言,它们可能微不足道,这取决于执行任务时所选择的模型。

我们用几个任务对模型进行了测试,看看它在与 DeepSeek R1 的对比中表现如何。

第一个任务是间谍游戏,以测试它在多步骤推理方面的能力。我们从 Github 上的 BIG-bench 数据集中选择了与评估 DeepSeek R1 相同的样本。(完整的故事可在这里找到,内容是学校到一个偏远的雪地旅行,在那里,学生和老师面临一系列奇怪的失踪事件;模型必须找出谁是跟踪者)。

OpenAI o3-mini 的表现并不理想,在故事中得出了错误的结论。根据测试提供的答案,跟踪者名叫 Leo。DeepSeek R1答对了,而OpenAI o3-mini却答错了,说跟踪者叫埃里克(有趣的是,我们无法分享对话链接,因为它被OpenAI标记为不安全)。

该模型在不涉及数学的逻辑语言相关任务方面表现相当出色。例如,我们要求模型写出五个以特定单词结尾的句子,它能够理解任务,评估结果,然后给出最终答案。它思考了四秒钟,纠正了一个错误的答案,并提供了一个完全正确的答案。

它的数学能力也非常出色,能够解决在某些基准测试中被认为极其困难的问题。同样一个复杂的问题,DeepSeek R1 需要 275 秒才能解决,而 OpenAI o3-mini 只用了 33 秒就完成了。

所以说,OpenAI 做得相当不错。你的行动 DeepSeek。

编辑:安德鲁-海沃德

Source: decrypt.co

Related News

More News

© 2025 DeFi.io