免费技术的爱好者们,欢呼吧!谷歌(Google)和 xAI 对其免费人工智能产品进行了有趣的更新,与 OpenAI 近期的民主化努力相匹配并有所扩展。
上周,OpenAI 发起了雄心勃勃的 "12 Days of OpenAI "活动,向公众发布了一系列功能强大的工具。此次活动的亮点包括公司最先进的文本到视频生成器 Sora、高级推理模型 "OpenAI o1 "和复杂的网络搜索集成 SearchGPT。
其中,搜索引擎和推理模型对免费用户开放。Sora 需要订阅 ChatGPT Plus。
随后,谷歌在昨天发布了一系列全面的公告,以表明它仍有很多东西可以提供。与 Sora 直接竞争的是 Veo 2--该公司最新的视频生成人工智能模型--的发布,并且已经开放注册,用户可以通过谷歌的人工智能测试厨房试用该模型。
"Veo可以创建动作逼真、输出质量高的视频,最高可达4K。该公司表示:"探索不同的风格,并通过广泛的相机控制找到属于自己的风格。这些视频片段可长达数分钟,超过了大多数运行时间较短的 1080p 分辨率最佳视频生成器。
12 月 16 日,谷歌还通过实验平台实验室(Labs)发布了一款实验性图像创建工具--Whisk,该工具侧重于重塑和使用视觉和象形输入来生成视觉输出。与传统的文本到图像模式不同,Whisk 引入了一种新颖的 "混搭 "方法,用户可以主要通过现有照片库中的视觉参考来创建新图像,从而最大限度地减少对详细文本提示的需求。
随着 Imagen 3 的发布,该公司的图像处理能力得到了进一步增强--Imagen 3 已在谷歌双子座聊天机器人应用中免费提供。这款新产品在细节渲染、风格多样性和减少幻觉方面都有所改进。它还具有文本生成功能,而这正是谷歌以前的模型所缺乏的。
同时免费提供的还有 Gemini 2.0 Flash,这是一个更新的模型,既可以在谷歌开发者控制台中使用,也可以在更加完善和用户友好的 Gemini 平台上使用。谷歌还发布了一项高级研究助手功能,并使其模型能够在开发者控制台上免费处理多达 100 万个代币。
有用户反映,Gemini 2.0 Advanced 的实验版也可以试用。"Advanced "是 Gemini 系列中功能最强大的型号,"Flash "是以效率为导向的小型型号,而 "Pro "则是中型型号。
埃隆-马斯克(Elon Musk)的 xAI 也不甘示弱,加入了这场战斗,通过 X 平台(前身为 Twitter)努力实现高级人工智能能力的平民化。
该公司发布了其 Grok-2 模型的增强版,在速度和能力方面都有了大幅提升。新版本的运行速度比上一代产品快三倍,同时在准确性、指令遵循和多语言能力方面也有了改进。
此外,上周 xAI 开始向所有 X 平台用户免费推广 Grok。这一整合超越了基本的聊天功能,引入了带引文的网络搜索等功能,允许用户直接通过平台验证信息和探索来源。
"今天,我们很高兴地宣布,我们开始向 X 平台的所有用户免费推出新版 Grok-2。一如既往,高级用户和高级+用户将获得更高的使用限制,并将率先使用未来的任何新功能,"xAI 在一篇博文中说。
该公司还推出了自己的图像生成模型 Aurora,该模型已集成到 Grok 的功能中。与 Grok 之前与 Flux 的集成相比,该模型提供的图像质量较低,但足以提供逼真的图像,而且遵守的提示较少,审查也较少。
为了进一步支持开发者和企业,xAI 宣布大幅降低其 API 访问价格,将费率降至每百万输入代币 2 美元,每百万输出代币 10 美元。
竞争引发了人工智能能力的快速发展,每家公司都在不断挑战可能的极限,同时使这些工具更容易获得。这种民主化可能会带来一个由人工智能驱动的创造力和生产力的新时代,因为用户可以使用以前只有特定开发者或付费客户才能使用的工具。
不过,还有一个很好的选择,有些用户可能没有考虑到:开源人工智能。有一些模型足以与这些科技巨头相抗衡,而且是免费提供的,完全可定制,透明度也更高。
Genmo Mochi 1、Flux、Stable Diffusion 和 Llama-3 都是很好的选择,它们可以满足你的需求,如果你尝试一下,甚至可能会超出你的预期。而且它们还可以免费使用。
编辑:安德鲁-海沃德
© 2025 DeFi.io