Nvidia 的 Sana:在普通 PC 上瞬间创建 4K 图像的人工智能模型

2024-10-26 15:01:02 UTC
Nvidia 的 Sana:在普通 PC 上瞬间创建 4K 图像的人工智能模型

Nvidia 的最新机型有望为日常电脑带来 4K 图像创作--你只需几秒钟就能生成这些图像。

人工智能艺术领域越来越热。Sana 是 Nvidia 推出的一款新型人工智能模型,它能在消费级硬件上运行高质量的 4K 图像生成,这得益于与传统图像生成器工作方式略有不同的巧妙技术组合。

Sana 的速度来自 Nvidia 所称的 "深度压缩自动编码器",它能将图像数据压缩到原始大小的 1/32,同时保留所有细节。该模型与 Gemma 2 LLM 相结合,可以理解提示信息,从而创造出一个在普通硬件上也能发挥出巨大作用的系统。

如果最终产品与公开演示一样出色,那么 Sana 将成为一个全新的图像生成器,可以在要求不高的系统上运行。

"Sana-0.6B与现代巨型扩散模型(如Flux-12B)相比极具竞争力,体积小20倍,实测吞吐量快100多倍,"Nvidia团队在Sana的研究论文中写道,"此外,Sana-0.6B可部署在16GB笔记本电脑GPU上,生成1024×1024分辨率图像的时间不到1秒。"

是的,你没看错:Sana 是一个参数为 0.6 亿的模型,其生成图像的速度是同类模型的 20 倍,而生成图像的大小是同类模型的 4 倍,所花的时间只是同类模型的一小部分。如果这听起来好得令人难以置信,你可以在麻省理工学院设置的特殊界面上亲自尝试一下。

Nvidia 的时机把握得恰到好处,最近推出的 Stable Diffusion 3.5、深受喜爱的 Flux 和新的 Auraflow 等模型已经在争夺人们的关注。Nvidia 计划很快将其代码作为开放源代码发布,此举将巩固其在人工智能艺术领域的地位,同时促进其 GPU 和软件工具的销售。

Sana 基本上是对传统图像生成器工作方式的重新想象。但有三个关键因素让这种模式如此高效。

首先是 Sana 的深度压缩自动编码器,它能将图像数据缩小到原始大小的 3%。研究人员说,这种压缩使用了一种专门的技术,既能保持复杂的细节,又能大幅降低所需的处理能力。

你可以把它看作是 Flux 或 Stable Diffusion 中实现的可变自动编码器的优化替代品。萨纳的编码/解码过程更快、更高效。

这些自动编码器基本上是将潜在表征(人工智能所理解和生成的表征)转化为图像。

其次,Nvidia 彻底改变了其模型处理提示的方式,即对文本进行编码和解码。大多数人工智能艺术工具都使用 T5 或 CLIP 等文本编码器,基本上是将用户的提示翻译成人工智能可以理解的内容--文本的潜在表征。但 Nvidia 选择使用谷歌的 Gemma 2 LLM。

这个模型的作用基本相同,但在保持轻量级的同时,还能捕捉用户提示中的细微差别。输入 "日落时分,薄雾缭绕的群山上有古代遗迹",它就能准确地捕捉到画面,而不会耗尽电脑内存。

线性扩散变换器可能是与传统模型最大的不同之处。其他人工智能工具会使用复杂的数学运算来拖累处理速度,而萨纳的线性扩散变换器则去除了不必要的计算。结果如何?生成图像的速度快如闪电,且无质量损失。把它想象成在迷宫中寻找捷径--目的地相同,但路线更快。

这可以替代人工智能艺术家从 Flux 或 Stable Diffusion 等模型中了解到的 UNet 架构。UNet 是通过应用去噪技术将噪声(没有意义的东西)转化为清晰图像,并通过几个步骤逐步完善图像--这是图像生成器中最耗费资源的过程。

因此,萨纳的 LDT 本质上执行的是与稳定扩散中的 UNet 相同的 "去噪 "和转换任务,但采用的是更精简的方法。这使得 LDT 成为萨纳图像生成中实现高效率和高速度的关键因素,而 UNet 仍然是稳定扩散功能的核心,尽管对计算要求更高。

由于该模型尚未公开发布,我们无法分享详细的评测。但我们从该模型的演示网站上获得的一些结果相当不错。

事实证明,Sana 的运算速度相当快。相比之下,它能够生成 4K 图像,在不到 10 秒的时间内渲染 30 个步骤。这甚至比 Flux Schnell 用 1080p 尺寸生成类似图像的 4 步时间还要快。

下面是一些结果,使用的是我们用来对其他图像生成器进行基准测试的相同提示:

提示 1:"手绘插图,一只巨型蜘蛛在丛林中追逐一名女子,极其可怕、痛苦、阴暗、惊悚的场景,恐怖,有模拟摄影的影子,素描。"

提示 2:一张黑白照片,照片中的女人留着长长的直发,穿着全黑的服装,凸显出她的曲线,坐在现代沙发前的地板上。她对着镜头摆出自信的姿势,蹲下时露出修长的双腿。背景采用简约设计,在浅灰色墙壁和深色服装的鲜明对比中凸显出她优雅的姿势。她的表情流露出自信和成熟。由 Peter Lindbergh 使用哈苏 X2D 105mm 镜头、f/4 光圈设置拍摄。ISO 63。专业调色增强了视觉吸引力。

提示 3:穿西装的蜥蜴

提示 4:躺在草地上的美女

提示 5:"一只狗站在电视机顶部,屏幕上显示'解密'字样。左边是一个穿着商务套装的女人,手里拿着一枚硬币,右边是一个机器人,站在一个急救箱上面。整体场景超现实"。

该模型也是无删减的,对男性和女性的解剖结构都有正确的理解。这也将使其在发布后更容易进行微调。但考虑到建筑上的重要改动,模型开发人员要理解其错综复杂的结构并发布定制版本的萨娜有多大挑战还有待观察。

根据这些早期结果,仍处于预览阶段的基础模型在逼真度方面似乎不错,同时也足够适用于其他类型的艺术作品。它在空间感知方面表现不错,但主要缺陷是缺乏适当的文本生成,以及在某些情况下缺乏细节。

它所宣称的速度令人印象深刻,能生成 4096x4096(技术上高于 4k)的图像是非常了不起的,因为这种尺寸目前只能通过升频技术来实现。

它的开源也是一大利好因素,因此我们可能很快就能看到能够生成超高清图像的模型和微调器,而不会对消费级硬件造成太大压力。

Sana 的权重将在该项目的官方 Github 上发布。

Source: decrypt.co

Related News

More News

© 2025 DeFi.io