DeepSeek 这个中国人工智能实验室最近颠覆了业界对行业开发成本的假设,它发布了一系列新的开源多模态人工智能模型,据说在关键基准上优于 OpenAI 的 DALL-E 3。
该模型被称为 Janus Pro,参数范围从 10 亿(极小)到 70 亿(接近 SD 3.5L 大小),可在机器学习和数据科学中心 Huggingface 上立即下载。
根据 DeepSeek AI 分享的信息,最大版本 Janus Pro 7B 在行业基准 GenEval 和 DPG-Bench 上不仅击败了 OpenAI 的 DALL-E 3,还击败了 PixArt-alpha、Emu3-Gen 和 SDXL 等其他领先模型。
就在 DeepSeek 发布其 R1 语言模型几天后,该模型成为了头条新闻,它与 GPT-4 的能力不相上下,而开发成本仅为 500 万美元,这引发了一场关于人工智能行业现状的激烈讨论。
这家中国初创公司的产品还引发了整个行业对其可能颠覆现有公司并打击主要芯片制造商英伟达(Nvidia)增长轨迹的担忧,该公司周一遭遇了历史上最大的单日市值损失。
DeepSeek 的 Janus Pro 模型采用了该公司所谓的 "新型自回归框架",将视觉编码解耦为不同的路径,同时保持单一、统一的变压器架构。
这种设计使该模型既能分析图像,又能生成 768x768 分辨率的图像。
"DeepSeek 在其发布文档中称:"Janus Pro 超越了以往的统一模型,并达到或超过了特定任务模型的性能。"Janus Pro的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。"
与 DeepSeek R1 不同的是,该公司没有发布关于该模型的完整白皮书,但发布了技术文档,并提供该模型的即时免费下载--继续其开源发布的做法,这与美国科技巨头的封闭、专有做法形成了鲜明对比。
那么,我们的结论是什么呢?这种模式具有很强的通用性。
不过,不要指望它能取代你喜欢的任何最专业的模型。它可以生成文本、分析图像和生成照片,但如果与那些只能做好其中一件事的机型相比,它充其量只能算得上旗鼓相当。
需要注意的是,目前还无法使用传统的用户界面来运行它--Comfy、A1111、Focus 和 Draw Things 现在都与它不兼容。这意味着在本地运行该模型有点不切实际,需要在终端中执行文本命令。
不过,一些 Hugginface 用户已经创建了空间来试用该模型。DeepSeek 的官方空间不可用,因此我们建议使用 NeuroSenko 的免费空间来试用 Janus 7b。
请注意您的操作,因为有些标题可能会误导您。例如,AP123 运行的空间说它运行 Janus Pro 7b,但实际上运行的是 Janus Pro 1.5b--这可能会让你失去大量测试模型的空闲时间,并得到糟糕的结果。相信我们:我们知道,因为我们也遇到过这种情况。
该模型擅长视觉理解,能够准确描述照片中的元素。
它显示了良好的空间意识和不同物体之间的关系。
它还比最流行的开源视觉模型 LlaVa 更准确,能够提供更准确的场景描述,并能根据视觉提示与用户互动。
不过,它仍然比不上 GPT Vision,尤其是在需要逻辑分析或对照片中明显显示的内容进行分析之外的任务方面。例如,我们要求模型分析这张照片并解释其中的信息
模型回答说:"这张图片似乎是一幅幽默的漫画,描绘了一个女人正在舔一个男孩身上的红色长舌头末端的场景"。
"它在分析结束时说,"画面的整体基调似乎是轻松和俏皮的,可能暗示着该女子正在进行调皮或挑逗行为的场景。
在这种情况下,除了简单的描述之外,还需要进行一些推理,而该模型在大多数情况下都失败了。
另一方面,以 ChatGPT 为例,它实际上理解了图像背后的含义:"这个隐喻表明,母亲的态度、言语或价值观直接影响了孩子的行为,尤其是以欺凌或歧视等负面方式。
图像生成似乎很强大,而且相对准确,不过要取得良好的效果,确实需要仔细的提示。
DeepSeek 声称 Janus Pro 优于 SD 1.5、SDXL 和 Pixart Alpha,但必须强调的是,这必须是与基本模型、非微调模型的比较。
换句话说,公平的比较是在目前最差版本的模型之间进行的,因为可以说,没有人会使用基本的 SD 1.5 来生成艺术效果,因为有数百种微调模型可以达到与 Flux 或 Stable Diffusion 3.5 等最先进模型相媲美的效果。
因此,就质量而言,这几代产品并不令人印象深刻,但它们确实比 SD1.5 或 SDXL 推出时的输出效果要好。
例如,下面是 Janus 和 SDXL 根据提示生成的图像的面对面对比: 一只可爱的小狐狸,棕色的大眼睛,背景是迷人的秋叶,不朽的、蓬松的、闪亮的鬃毛,花瓣,仙女,高度细致,逼真,电影般的自然色彩。
Janus 在理解核心概念方面胜过 SDXL:它可以生成一只小狐狸,而不是像 SDXL 那样生成一只成熟的狐狸。
它对逼真风格的理解也更好,而且还具备其他元素(蓬松、电影风格)。
尽管如此,SDXL 尽管没有按照提示生成图像,但生成的图像更清晰。整体质量更好,眼睛更逼真,细节更容易发现。
这种模式在其他几代产品中是一致的:对提示的理解很好,但执行不力,图像模糊,考虑到目前最先进的图像生成器的性能,感觉已经过时了。
不过,值得注意的是,Janus 是一种多模态 LLM,能够生成文本对话、分析图像并生成图像。Flux、SDXL 和其他模型并不是为这些任务而构建的。
因此,Janus 的核心功能要全面得多--只是与擅长某项特定任务的专业模型相比,Janus 并不擅长任何事情。
由于 Janus 是开源的,因此它未来能否成为生成式人工智能爱好者中的佼佼者,将取决于一系列旨在改进这些方面的更新。
编辑:Josh Quittner 和 Sebastian Sinclair
© 2025 DeFi.io