OpenAI 已开始为 ChatGPT Plus 和 Teams 用户推出备受期待的高级语音模式,标志着向更像人类的人工智能交互又迈进了一步。
该功能由 OpenAI 的最新模型 GPT-4o 支持,可实现实时、流畅的对话,该模型结合了文本、视觉和音频,可提供更快的响应。
"高级语音功能将在本周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出,"OpenAI 在一条官方推文中说,"它还能用 50 多种语言说 "对不起,我迟到了","它补充说--解决了这个项目长期拖延的问题。
毋庸置疑,OpenAI 还缺少一个值得注意的元素:"Sky "的妩媚声音,它与女演员斯嘉丽-约翰逊(Scarlett Johansson)惊人的相似引起了轩然大波。在斯嘉丽-约翰逊的律师团队致函 OpenAI 首席执行官山姆-奥特曼(Sam Altman)后,OpenAI 暂时搁置了 Sky 的语音,并坚称约翰逊独特的声音与 Sky 之间的任何相似之处都纯属巧合。
取而代之的是,OpenAI 推出了五种新的声音:Arbor、Maple、Sol、Spruce 和 Vale,可在标准和高级语音模式下使用。这些声音加入了之前的 Breeze、Juniper、Cove 和 Ember。(出于某种原因,该公司似乎在用香皂的香味给它们命名。)Plus 和 Team 层级的用户将逐步获得这些新语音,它们旨在让对话更自然,情感反应更灵敏,并能随时打断和切换话题。
此外,OpenAI 还增加了与自定义指令和 "记忆 "的兼容性,让用户可以进一步个性化他们的 ChatGPT 体验,根据自己的喜好进行互动。正如基于文本的聊天机器人会从您的指令(即您的姓名、职业,可能还有您喜欢阅读的答案类型)中学习一样,新的语音也会尝试从您的对话中学习,使它们更自然、更熟悉、更符合您的偏好。
欧盟、英国、瑞士、冰岛、挪威和列支敦士登的用户需要等待,因为该功能尚未在这些地区推出。根据 OpenAI 的时间表,企业和教育用户有望从下周开始使用该功能。该功能的推出速度很慢,即使是受支持地区的用户,也不是所有用户都能使用该功能。
OpenAI 还改进了流行外语的口音,并提高了对话速度和流畅度。设计也进行了更新,采用了一个蓝色的动画球体,直观地表现了语音交互的过程,比以前显示的极简黑点更美观。
在 OpenAI 不断完善其语音人工智能产品的同时,该领域的竞争也日趋白热化。
目前,谷歌的 NotebookLM 以一些最像人类的人工智能语音树立了标杆,它能够以非凡的逼真度模拟人工智能生成的发言人之间的整场辩论。
据Decrypt此前报道,谷歌的人工智能工具可以处理多达一百万个数据令牌,并让用户与之互动。一旦用户上传一组包含不同类型信息的特定文档,Notebook LM 就能生成长达 10 分钟的音频,其中有两个人工智能在谈论这些特定信息。结果几乎极其逼真。
除谷歌外,Meta 也加入了这一行列,推出了自己的真人助理 Meta AI,不过目前还没有广泛使用。该助手也能与用户进行自然对话,流畅地处理命令。与我们在大多数人工智能助手中看到的典型机器人声音相比,它的声音更加自然,但仍有一些蛛丝马迹,比如说话的节奏和速度,让人一眼就能看出它是人工智能生成的。路透社报道称,Meta 即将推出的聊天机器人将拥有朱迪-丹奇(Judy Dench)和迈克尔-塞纳(Michael Cerna)的角色。它不是斯嘉丽-约翰逊(Scarlet Johansson),但也不是砧板上的鱼肉。
乔希-奎特纳和塞巴斯蒂安-辛克莱尔编辑
© 2025 DeFi.io