llustrious：想统治动漫艺术创作的人工智能模型

2025-01-13 22:25:54 UTC

一种新的开源人工智能模型改变了创作者生成动漫风格图像的方式，其影响远远超出了漂亮的图片。

Illustrious 是一种基于稳定扩散 XL 的文本到图像模型，它在人工智能艺术社区中占据了主导地位，以至于最大的人工智能艺术模型中心 Civitai 不得不创建一个单独的类别来处理其庞大的资源生态系统。

而这一切都发生在三个月之内。成功背后的秘诀是什么？返璞归真，别出心裁。

当SD 3.5和Flux等新模型依赖冗长的自然语言描述时，Illustrious的开发者Onoma AI却采取了不同的方法，利用Danbooru标签帮助他们的模型理解概念，而不必重新发明复杂的字幕系统。

该模型在 Danbooru 庞大的动漫图片标签库中接受训练，因此在理解视觉概念方面具有优势。

Danbooru 系统中的每个标签都代表着特定的元素，如角色特征、服装、姿势或背景，因此可以精确控制生成的图像，而无需在冗长的描述上浪费宝贵的标记。

这些标签已经存在多年，并已成为艺术/动漫爱好者对图像分类的一种标准。

在了解照片的特征方面，该模型非常准确和高效。

"这就像有一位艺术家，他能准确理解你想要什么，而不需要用段落来解释，"参与一个专注于 NSFW AI 内容服务器的 Discord 成员 Vishnu 告诉Decrypt。"你只需要知道正确的标签。

Illustrious的核心是使用古老的SDXL架构和复杂的双编码器系统，该系统结合了CLIP ViT-L和OpenCLIP ViT-bigG来理解单词，并将它们与视觉对应物联系起来。

该模型能够处理和生成分辨率为 1536×1536 的图像，并能在不明显降低质量的情况下拉伸到 2048×2048 甚至 3744x3744。

最初的 SDXL 可处理全高清分辨率（1024x1024）。

创建 Illustrious 的过程是有条不紊、深思熟虑的。最初的训练阶段（0.1 版）处理了 750 万张 1024×1024 分辨率的图像，每批处理 192 张图像。

团队仔细平衡了学习率，运行了 20 个历元（人工智能对其数据集进行 100% 学习的过程），以打下坚实的基础。一旦结果足够令人满意，团队就会继续扩大数据集的规模，并在接下来的迭代中使用更多的分辨率。

在高级训练阶段，Illustrious 开始真正大放异彩。1.0 版将数据集扩大到 1,000 万张图片，并将分辨率提高到 1536×1536。

虽然他们将批次大小减少到了 128，但引入了复杂的标签操作策略和寄存器标记，这些根本性的变化决定了模型的卓越性能。

2.0 版的最后完善阶段则更进一步。在处理 2000 万张同样高分辨率但批量更大（512 张）的图片时，团队采用了多字幕方法，大大提高了文本与图片的对应性。

最终，它成为了人类已知的最好的威福生成器，具有良好的微调能力、迅速的粘附性、得体的美感和高质量的输出。

对于技术高手来说，Illustrious 开发人员还引入了很多有趣的技术，比如 "不丢弃标记"（No Dropout Token）方法，确保特定标记在训练过程中不会被排除在外；准注册标记（Quasi-Register Token）的实现，让模型能够处理未知或奇怪的概念；余弦退火调度器（Cosine Annealing Scheduler），提高学习速度；多级丢弃系统（Multi-Level Dropout system）和输入扰动噪声增强（Input Perturbation Noise Augmentation），将简单的人工智能模型变成强大的工具。

Illustrious的运行不需要任何额外步骤。

安装过程与其他 SDXL 模型相同。根据你使用的用户界面，下载检查点并将其放入相应的文件夹。

Windows 和 Linux

MacOS

Mac 用户也有类似的路径。不过，一些流行的面向 macOS 的用户界面需要额外的步骤。

加载模型后，有三件事需要考虑。

有许多模型可供选择，它们都侧重于不同的风格、美学和特性。

甚至还有像来自 Noob AI 的通用模型，它们以 Illustrious 为基础，被微调人员用来构建自己的模型。

不过，以下是我们针对不同需求推荐的最佳图片。这些图片在快速理解、输出质量和易用性方面都非常出色。所有样本均来自 Civit AI 社区，无版权问题。

链接：Mistoon_Anime - v1.0 Illustrious | Illustrious Checkpoint | Civitai

链接Smooth Mix - Illustrious | Pony - Illustrious | Illustrious Checkpoint | Civitai

链接NTR MIX | illustrious-XL | Noob-XL - XIII | Illustrious Checkpoint | Civitai

链接：THRILLustrious - v5.0 THRILLed | Illustrious Checkpoint | Civitai

编辑：Sebastian Sinclair 和 Josh Quittner

Source: decrypt.co

llustrious：想统治动漫艺术创作的人工智能模型

一种新的开源人工智能模型改变了创作者生成动漫风格图像的方式，其影响远远超出了漂亮的图片。

Related News

More News