腾讯全新人工智能视频生成器免费对战 OpenAI 的 Sora

2024-12-06 02:17:07 UTC

腾讯表示，根据人工测试，其模型优于 Runway Gen-3、Luma 1.6 和三款中国领先的视频生成工具。

就在 OpenAI 在推迟数月后不断调侃 Sora 时，腾讯却悄然推出了一款已显示出与现有顶级视频生成器不相上下的效果的模型。

腾讯发布了一款免费开源的人工智能视频生成器--浑源视频，其发布时间正好与 OpenAI 为期 12 天的发布活动相吻合。

"腾讯在其官方公告中说："我们推出的浑源视频是一种新颖的开源视频基础模型，它在视频生成方面的性能可与领先的闭源模型相媲美，甚至更胜一筹。

这家总部位于中国深圳的科技巨头声称，根据专业人工评估结果，它的模型 "优于 "Runway Gen-3、Luma 1.6 和 "三个表现最好的中国视频生成模型"。

时机再恰当不过了。

在推出视频生成器之前--介于 SDXL 和 Flux 之间的开源图像生成器时代--腾讯发布了一款名称相似的图像生成器。

HunyuanDit 提供了出色的效果，提高了对双语文本的理解，但并未被广泛采用。该系列由一组大型语言模型组成。

浑源视频使用一个纯解码器的多模态大语言模型作为文本编码器，而不是其他人工智能视频工具和图像生成器中常见的 CLIP 和 T5-XXL 组合。

腾讯表示，这有助于该模型更好地遵从指令，更准确地把握图像细节，并在无需额外训练的情况下即时学习新任务，此外，它的因果注意力设置还得到了特殊标记精炼器的帮助，这有助于它比传统模型更透彻地理解提示。

此外，它还能改写提示语，使其内容更加丰富，提高生成质量。例如，一个简单的提示语 "一个人在遛狗 "可以在细节、场景设置、光照条件、质量人工痕迹和种族等元素上得到增强。

与 Meta 的 LLaMA 3 一样，Hunyuan 也可以免费使用和盈利，直到用户数量达到 1 亿为止。

问题是什么？你需要一台配备至少 60GB GPU 内存的强大电脑，才能在本地运行其 130 亿参数模型--想想 Nvidia H800 或 H20 显卡。这比大多数游戏电脑的 vRAM 总容量还要大。

对于那些身边没有超级计算机的人来说，云服务已经跃跃欲试。

为开发者量身定制的生成式媒体平台 FAL.ai 已经整合了浑源，每段视频收费 0.5 美元。包括 Replicate 或 GoEhnance 在内的其他云服务提供商也开始提供对该模式的访问。浑源视频的官方服务器提供 150 个信用点，价格为 10 美元，每生成一个视频至少需要 15 个信用点。

当然，用户还可以使用 Runpod 或 Vast.ai 等服务，在租用的 GPU 上运行该模型。

早期测试显示，Hunyuan 的质量与 Luma Labs Dream Machine 或 Kling AI 等重量级商业软件不相上下。生成视频大约需要 15 分钟，生成的序列逼真，人类和动物动作自然。

测试显示了目前的一个弱点：该模型对英语提示的掌握可能比竞争对手更敏锐。不过，开放源代码意味着开发人员现在可以对模型进行修补和改进。

腾讯表示，根据他们的内部测试，其文本编码器实现了高达 68.5% 的对齐率（即输出与用户要求的匹配程度），同时保持了 96.4% 的视觉质量得分。

完整的源代码和预训练的权重可在 GitHub和 Hugging Face 平台上下载。

编辑：Sebastian Sinclair

Source: decrypt.co