稳定扩散 3.5:稳定人工智能通过新模型和扩展功能实现自我救赎

2024-10-23 00:07:20 UTC
稳定扩散 3.5:稳定人工智能通过新模型和扩展功能实现自我救赎

在《Stable Diffusion 3 Medium》的跌宕起伏之后,Stability AI 凭借《Stable Diffusion 3.5》重回正轨,为每个人提供未经审查、快速且易于使用的定制模型。

Stability AI 可能正在开始自己的救赎之路。在令人失望的 SD3 Medium 之后,他们又发布了两款新模型,这两款模型早在 7 月份就已承诺过:Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。

"六月份,我们发布了 Stable Diffusion 3 Medium,这是 Stable Diffusion 3 系列的第一个公开版本。这个版本没有完全达到我们的标准或社区的期望,"Stability 在一篇官方博客文章中说。"在听取了宝贵的社区反馈意见后,我们没有急功近利,而是花时间进一步开发了一个版本,以推进我们改变视觉媒体的使命。

在匆忙撰写这篇爆炸性新闻之前,我们生成了几张图片进行试用--效果相当不错。尤其是对于基本型号而言。

SD 3.5 系列可在消费级系统上运行,即使是低端系统也不例外,这使得先进的图像生成技术比以往任何时候都更容易获得。是的,他们已经听到了人们对上一版本的抱怨,因此这一版本保证会好得多,以至于他们的特色图片是一个躺在草地上的女人,诙谐地提到了之前遇到同样挑战时发生的恐怖事件。

这次发布的另一个重要方面是新的许可模式。Stable Diffusion 3.5 采用了更为宽松的许可模式,允许商业和非商业使用。收入低于 100 万美元的小型企业和个人可以免费使用这些模型并在其基础上进行开发。

收入较高者必须与 Stability 公司联系,协商收费事宜。相比之下,黑森林实验室(Black Forest Labs)的低端 Flux Schnell 是免费的,中等型号 Flux Dev 是免费的,但不能用于商业用途,其 SOTA 型号 Flux Pro 是闭源型号。(作为参考,Flux 被普遍认为是目前最好的开源图像生成器--至少在当前的后 SDXL 时代是如此)。

Stability AI 将发布三个版本的 Stable Diffusion 3.5,它们都能满足不同的需求:

这些模型更加灵活,用户可以根据具体的创意需求进行微调。如果你担心你的消费级 GPU 能否胜任,Stability AI 将是你的后盾。我们自己的测试显示,在配备 6GB VRAM 的普通 RTX 2060 上,Large Turbo 可在约 40 秒内生成图像。

在相同的低端硬件上,非量化全脂版本需要 3 分钟以上,但这就是质量的代价。

Stability AI 正在追赶 Flux,后者是定制化的首选模式。为了改善用户体验,Stability 重新设计了 SD 3.5 的行为方式。"在开发模型的过程中,我们优先考虑了可定制性,以提供一个灵活的基础。为此,我们在转换器模块中集成了查询键归一化功能,从而稳定了模型训练过程,简化了进一步的微调和开发,"Stability 说。

换句话说,无论你是想创建自定义风格的艺术家,还是想构建人工智能应用的开发人员,都可以比以前更轻松地调整和完善这些模型。Stability 甚至还分享了一份 LoRA 培训指南,帮助大家更快地开始工作。

LoRA(低等级适应)是一种技术,用于微调模型,使其专注于特定概念--无论是风格还是主题--而无需重新训练整个大型基础模型。

当然,灵活性也会带来一些权衡。现在的模型非常有创造力,以至于 Stability 公司警告说:"缺乏特定性的提示可能会导致输出的不确定性增加,审美水平也可能会有所不同"。

如果你仍然对 Stable Diffusion 3.5 持观望态度,而且它的 "不确定性 "让你望而却步,那么这里有一点为你的未来做准备--它支持 "否定提示",也就是说你的提示可以包括不要做事情的指令。这对于那些希望在不费力的情况下完善文本和图像生成的用户来说是一大福音。

对于那些希望对生成的内容有更多控制权的人来说,这也是一个很好的补充。此外,它似乎还能很好地处理 SDXL 的老式提示方式。事实上,在某些方面,SD3.5 的提示风格比 Flux 更接近 MidJourney,让用户无需语言学学位也能发挥创意。

除了自定义功能,稳定扩散 3.5 还在其他方面取得了进步:

是的,值得一提的是,它是未经审查的。SD3.5 Large 可以轻松制作某些类型的内容,包括裸体内容,尽管它并不完美。无论好坏,该模型都没有刻意限制,因此它为用户提供了充分的创作自由(不过要达到最佳效果,可能需要微调和一些特定的提示)。

这一点在 SD3 推出时曾饱受批评,并被指出是它在解剖理解方面严重失败的主要原因之一。不过,我们可以确认它生成 NSFW 图像的能力,该模型与最好的 Flux finetunes 不在同一水平上,但可与原始 Flux 模型相媲美。

不过,我们也要提醒各位:SD3.5 虽然功能强大,但各位非主流毛茸茸艺术家还是不要指望它能在短时间内推出 Pony Diffusion 模型。最受欢迎、功能最强大的 NSFW 模型的创建者证实,他们对开发 SD3.5 微调版不感兴趣。相反,他们选择使用 Auraflow 作为基础来构建模型。一旦完成,他们可能会考虑使用 Flux。

对于工匠来说,ComfyUI 现在支持稳定扩散 3.5,允许使用基于签名节点的工作流进行本地推理。现在有大量的工作流示例可供使用,如果你正在为内存不足而苦恼,但又想尝试完整的 SD3.5 体验,Comfy 推出了一个实验性的 fp8 缩放模型,可以降低内存使用率。

10 月 29 日,我们将获得 Stable Diffusion 3.5 Medium,不久之后,Stability 承诺将发布 SD 3.5 的 Control Nets。

ControlNets 承诺将带来高级控制功能,为专业用例量身定制,很可能将 SD3.5 的功能提升到新的水平。如果您想进一步了解它们,可以阅读我们的 SD 1.5 简要指南。不过,使用 controlents 可以让用户选择拍摄对象的姿势、使用深度图、根据涂鸦重新想象场景等等。

那么,《稳定扩散 3.5》是 "通量杀手 "吗?不完全是,但它绝对是一个竞争者。有些用户仍然会挑剔,尤其是在 SD3 中型版失败之后。但有了更好的解剖处理、更清晰的许可证,以及在及时性和输出质量方面的显著改进,很难说这不是一大进步。Stability AI 正在从过去的错误中吸取教训,向着让所有人都能使用先进人工智能工具的未来迈进。

Source: decrypt.co

Related News

More News

© 2025 DeFi.io