谷歌推出双子座 2.0，Anthropic 推出克劳德 3.5 Haiku，OpenAI 发起年终大突击

2024-12-12 22:40:58 UTC

谷歌的新人工智能模型可以生成图像、音频、浏览浏览器并处理复杂的任务，但却被 OpenAI 的产品热潮所掩盖。

谷歌本周发布了 Gemini 2.0，为其最新的人工智能模型配备了自主能力和多模态功能。

在这个版本中，最引人注目的是谷歌将人工智能聊天机器人发展成了人工智能代理（AI Agents）--一种使用生成式人工智能与用户交互、理解并实时执行任务的定制软件。

"谷歌首席执行官桑达尔-皮查伊（Sundar Pichai）说："随着多模态（如原生图像和音频输出）和原生工具使用方面的新进展，我们将能够构建新的人工智能代理，使我们更接近通用助理的愿景。

该模型建立在 Gemini 1.5 的多模态基础之上，具有新的原生图像生成和文本转语音能力，并改进了推理能力。

根据谷歌的说法，2.0 Flash 版本在关键基准测试中的表现优于之前的 1.5 Pro 版本，同时运行速度是其两倍。

目前，用户只需付费购买谷歌高级版，就可以使用该版本。谷歌高级版的付费订阅旨在与 Claude 和 ChatGPT Plus 竞争。

愿意亲自动手的用户可以通过 Google AI Studio 访问该模型，获得更全面的体验。

需要注意的是，这个界面比 Gemini 提供的简单、直接和用户友好的用户界面更加复杂。

此外，它的功能更强大，但速度却更慢。在我们的测试中，我们要求它分析一个长达 74K token 的文档，它花了近 10 分钟才做出回应。

不过，它的输出足够准确，没有出现幻觉。分析约 20 万个标记（近 15 万字）的较长文档需要的时间要长得多，但如果你有足够的耐心，该模型还是能够完成任务的。

谷歌还在双子座高级版中推出了 "深度研究 "功能，利用该模型增强的推理和长语境能力来探索复杂的主题并编制报告。

与使用旨在提供更直接答案的普通模型相比，该功能能让用户更深入地处理不同的主题。不过，它是基于 Gemini 1.5 的，在推出基于 Gemini 2.0 的版本之前没有时间表可循。

这项新功能让 Gemini与 Perplexity 的专业搜索、You.com 的研究助手，甚至是知名度较低的 BeaGo等服务形成了直接竞争，它们都提供了类似的体验。不过，谷歌的服务与众不同。在提供信息之前，必须先确定完成任务的最佳方法。

它向用户展示了一个计划，用户可以对其进行编辑，加入或排除信息，添加更多研究材料，或提取零碎信息。方法确定后，用户就可以指示聊天机器人开始研究。到目前为止，还没有任何人工智能服务能为研究人员提供这种程度的控制和定制功能。

在我们的测试中，"研究人工智能对人际关系的影响 "这样一个简单的提示就会触发对十多个可靠的科学或官方网站的调查，模型会根据 8 个正确引用的资料来源生成一份长达 3 页的文件。还不错嘛。

谷歌还分享了一段视频，展示了由双子座 2.0 支持的实验性人工智能助手 Project Astra。Astra 是谷歌对 Meta AI 的回应：一个能与人实时互动的 AI 助手，使用智能手机的摄像头和麦克风作为信息输入，并在语音模式下提供响应。

谷歌赋予了 Project Astra 更多的功能，包括改进口音识别的多语言对话、与谷歌搜索、Lens 和地图的整合、可保留 10 分钟对话上下文的扩展记忆、长期记忆，以及通过新的流媒体功能降低对话延迟。

尽管在社交媒体上的反响平平--谷歌的视频自发布以来仅获得了 9 万次观看，但新系列机型的发布似乎在用户中获得了不错的反响，网络搜索量显著增加，尤其是考虑到它是在 ChatGPT Plus 大停电期间发布的。

谷歌本周的声明表明，它正试图与 OpenAI 竞争，成为生成式人工智能行业的领导者。

事实上，谷歌的声明正值 OpenAI 的 "12 天圣诞节 "活动期间，该公司每天都会发布一款新产品。

到目前为止，OpenAI 已经发布了一个新的推理模型（o1）、一个视频生成工具（Sora）和每月 200 美元的 "专业版 "订阅服务。

谷歌也发布了其新的人工智能驱动的 Chrome 浏览器扩展项目--Project Mariner，该项目使用代理来浏览网站和完成任务。谷歌表示，在针对真实世界网络任务的WebVoyager基准测试中，Mariner作为单个代理的成功率达到了83.5%。

"皮查伊在公告中写道："在过去的一年里，我们一直在投资开发更多的代理模型，这意味着它们可以更多地了解你周围的世界，提前多步思考，并在你的监督下代表你采取行动。

公司计划在整个产品阵容中推出 Gemini 2.0 集成，从今天开始试验性地访问 Gemini 应用程序。随后将在 1 月份发布更广泛的版本，包括集成到谷歌搜索的人工智能功能中，目前该功能的用户已超过 10 亿。

就在 Gemini 2 发布的同时，Anthropic 悄无声息地发布了其最新更新。Claude 3.5 Haiku 是其人工智能模型家族中速度更快的一个版本，在编码任务中表现出色，在 SWE-bench Verified 基准测试中得分高达 40.6%。

Anthropic 仍在训练其最强大的模型 Claude 3.5 Opus，该模型在经过一系列延迟后将于 2025 年晚些时候发布。

谷歌和 Anthropic 的高级服务月费均为 20 美元，与 OpenAI 的基本 ChatGPT Plus 层级相当。

事实证明，Anthropic 的 Claude 3.5 Haiku 比 Claude 3 Sonnet（Anthropic 上一代中型机型）更快、更便宜、更强大，在 HumanEval 编码任务中得分 88.1%，在多语言数学问题中得分 85.6%。

该模型在数据处理方面表现出了特别的优势，Replit 和 Apollo 等公司都报告说，该模型在代码精炼和内容生成方面有了显著改进。

Claude 3.5 Haiku 的价格低廉，每百万词组输入只需 0.8 美元。

该公司声称，用户可以通过及时缓存节省多达 90% 的成本，使用消息批处理 API 还能再节省 50% 的成本，因此该模型对于希望扩展其人工智能业务的企业来说是一个经济高效的选择，与每百万个输入代币花费 3.00 美元的 OpenAI o1-mini 相比，也是一个非常值得考虑的选择。

编辑：Sebastian Sinclair 和 Josh Quittner

Source: decrypt.co