谷歌新型双子座人工智能模型在基准测试中独占鳌头，击败 GPT-4o 和 Claude-3

2024-08-01 21:15:59 UTC | defi.io/kix

生成式人工智能基准测试领域出现了新的领头羊，它的名字叫双子座 1.5 Pro。

8 月 1 日，谷歌悄然发布了其最新模型的实验版本，最终超越了之前的冠军--OpenAI 的 ChatGPT-4o。

Gemini 的最新更新没有大张旗鼓地发布，目前还被标注为实验版本。但它很快在社交媒体上赢得了人工智能社区的关注，因为有报道称它在基准测试成绩上超越了竞争对手。

人工智能基准

自 GPT-3 推出以来，OpenAI 的 ChatGPT 一直是生成式人工智能的标杆。它的最新型号 GPT-4o 及其最接近的竞争对手 Anthropic 的 Claude-3 在过去一年左右的时间里，在大多数常见基准测试中，它的成绩一直高于其他大多数型号，几乎没有竞争对手。

最受欢迎的基准之一是 LMSYS Chatbot Arena。它对各种任务的模型进行测试，并给出总体能力分数。GPT-4o 获得了 1286 分，而 Claude-3 获得了可观的 1271 分。

先前版本的 Gemini 1.5 Pro 得分为 1,261 分。但 8 月 1 日发布的实验版（Gemini 1.5 Pro 0801）得分高达 1,300 分。

这表明它的整体能力强于竞争对手，但基准并不一定能准确反映人工智能模型能做什么和不能做什么。

在没有更深入比较的情况下，我们正在进入一个人工智能聊天机器人市场已经成熟到足以提供多种选择的时代。最终还是要由终端用户来决定哪种人工智能模式最适合他们。

从轶事来看，社交媒体上的用户对最新版本的双子座机器人赞不绝口，称其 "棒极了"。一位 Redditor 甚至写道，它 "把 4o 的性能都吹上了天"。

目前还不清楚实验版 Gemini 1.5 Pro 最终是否会成为默认版本。虽然截至本文发布时，它仍然普遍可用，但它处于被认为是早期发布或测试阶段的事实表明，出于安全或对齐的原因，该型号有可能被取消或更改。