谷歌推出了全新的文本到图像模型 Imagen 3,为生成式人工智能领域繁忙的一周锦上添花。该版本是在 2023 年 12 月推出的 Imagen 2 取得成功的基础上推出的,Imagen 2 已经可以与 Dall-E 3 和 MidJourney v5 等业界重量级产品相媲美。
Imagen 3 最初于今年 5 月发布,与前代产品相比,它在理解和执行复杂提示、生成具有更佳细节的图像以及更好地遵守提示方面拥有更强的能力。它的功能相当全面,可以生成从逼真到艺术和 3D 合成的各种良好效果。
"Imagen 3 是我们最高质量的文本到图像模型,与我们以前的模型相比,它能生成细节更好、光照更丰富、干扰性人工痕迹更少的图像,"谷歌在其官方公告中说。
Imagen 3 的提示功能有所改进,用户可以用自然语言描述所需的图像,而无需复杂的提示工程。该模型的训练还纳入了更丰富的图片说明,使其能够捕捉细微的细节,如特定的摄影角度或构图,并在需要时提供长文本提示。
这家科技巨头特别强调了 Imagen 3 增强的文本渲染能力。我们的初步测试表明,Imagen 3 的功能虽然有了明显改善,但与 Dall-E 3、Auraflow 或 Flux 等其他机型相比仍有差距。
在 Imagen 3 的开发和部署过程中,谷歌还强调了其对安全和责任的承诺。该公司实施了所谓的 "广泛过滤和数据标记 "流程,以尽量减少模型训练数据集中的有害内容。此外,谷歌还表示已进行了全面评估,包括红队演习,以识别和修复潜在漏洞。
值得注意的是,Imagen 3 还集成了谷歌的水印工具 SynthID。SynthID 将数字签名直接嵌入生成图像的像素中。这种水印人眼无法察觉,但可被专业软件检测到,为识别人工智能生成的内容提供了一种手段。
目前,Imagen 3 可通过谷歌的 ImageFX 平台和 Vertex AI 使用。展望未来,谷歌计划在未来几个月内将Imagen 3引入Imagen 2中流行的编辑功能,如inpainting(编辑图像中的元素)和outpainting(扩展图像)。该公司还宣布将扩大 Imagen 3 在更广泛的产品生态系统中的可用性,包括集成到 Gemini 应用程序、Google Workspace 和 Google Ads 中。
此次发布是谷歌更广泛战略的一部分,该战略旨在将双子座和人工智能技术应用到谷歌的所有服务和硬件中。本周,谷歌推出了以人工智能功能为核心设计的全新 Pixel 9 系列。新款 Pixel 手机可以在本地处理某些 AI 生成任务,包括基于文本的任务和小型图像生成。
Imagen 3 的发布正值人工智能图像生成领域的热潮。埃隆-马斯克(Elon Musk)的 xAI 最近发布了 Grok 2,其特色是 Flux.1 图像生成器,该生成器能够生成高度逼真、未经审查的图像,并具有强大的文本生成能力,因而备受关注。
与此同时,该领域的另一家重要公司 MidJourney 宣布即将对其模型进行 6.2 版更新。该公司还预告将开发 MidJourney v7,预计在未来几个月内发布。人工智能图像生成领域的另一个竞争者 Ideogram 也暗示即将对其模型进行更新。最后,"开放模型计划"(Open Model Initiative)选择 Flux.1 作为开发其最先进的开源图像生成模型的基础。
编辑:Ryan Ozawa
© 2025 DeFi.io