TikTok 制作商 ByteDance 发布功能强大的新型人工智能视频生成器

2024-10-02 20:31:02 UTC
TikTok 制作商 ByteDance 发布功能强大的新型人工智能视频生成器

当全世界都在等待 OpenAI 发布 Sora 时,中国公司正凭借能产生惊人效果的模型取得领先地位。

TikTok 背后的技术巨头字节跳动(ByteDance)刚刚在人工智能视频生成军备竞赛中打响了雷霆一击,该公司的云计算部门发布了两款视频生成器:PixelDance 和 Seaweed。

这两款生成器是上周在深圳举行的一次活动上发布的,目前仍处于私人测试阶段,仅对少数用户开放。不过,专注于为内容创作者提供人工智能工具的优酷用户蒂姆-西蒙斯(Tim Simmons)称,根据美国大选的结果,这些模型可能会在下个月公开发布。

"他在对模型进行视频评测时说:"我确实跟(一位匿名人士)说过这个问题,我只能说,不要屏住呼吸,等到 11 月之后,因为......政治。

演示视频首先在中国网站 WeiXin 上播放。

PixelDance 专注于人工智能驱动的角色动画,可生成 10 秒钟的视频,其人物动作栩栩如生,令人惊叹。该模型能提供流畅、自然的表演--角色行走、转身、拿起物品并与环境互动,而这在以前被认为是人工智能不可能做到的。

但 PixelDance 真正的神奇之处在于它的多重拍摄功能。在不同的拍摄角度下,该模型在人物外观、比例和场景细节上都能保持惊人的一致性。这一功能解决了人工智能视频生成中的一大难题,因为长期以来,在不同镜头之间保持视觉一致性一直是个难题。这就是为什么大多数先进的视频生成器都专注于在单个视频序列中生成流畅的动作。

PixelDance 的摄像机控制也与 Pika、Runway 的 Gen 3 或 Kling 等其他主要机型相当,使其成为人工智能电影拍摄的最佳补充,几乎没有任何妥协。只需一个简单的文字提示,用户就能安排复杂的摄像机运动,如 360 度平移、变焦、跟踪拍摄等。

例如,下面这段视频的提示大致可翻译为在黑白模式下,摄像机围绕戴墨镜的女士拍摄,从她的侧面移动到正面,最后对准该女士的面部特写。

在其他机型中,摄像头的控制是通过用户界面的按钮和滑块来实现的。

PixelDance 的同胞兄弟 Seaweed 则在环境生成和一致性方面推陈出新。该模型可将视频生成时间延长至整整 30 秒,并有可能延长至近 2 分钟的连续拍摄。

ByteDance 的时机选择极具战略性。自今年 2 月 OpenAI 的 Sora 发布以来,人工智能视频生成领域一直处于兴奋状态。据称,Sora 能够根据文字提示生成长达 60 秒的高质量视频,这在科技界引起了震动。然而,Sora 仍未向公众发布,其他公司正竞相填补这一空白。

另一家中国科技巨头--酷开公司(Kuaishou)在 6 月份推出了 Kling AI,掀起了一阵波澜。Kling AI 集成到了酷爱秀的视频编辑应用程序中,它还能生成两分钟的视频,甚至超过了 Sora 的功能。这款工具很快就积累了超过 260 万用户,他们总共生成了 2700 万个视频。不过,它只能生成单次拍摄的视频,因此在质量上与 Bytedance 的产品不相上下,但在功能上稍逊一筹。

本周二,生成视频领域的另一个 O.G. Pika Labs 发布了新的 Pika 1.5 模型,增强了其已被广泛采用的优秀视频生成器的功能。"Pika Labs 在官方推文中说:"有了更逼真的动作、大屏幕截图和打破物理定律的令人震撼的 Pikaffects,Pika 比以往任何时候都更令人喜爱。

Pika 1.5 可在 Pika 的官方网站上进行测试,社交媒体上已经充斥着大量视频,展示 Pika 如何通过压碎和爆炸人和物体来疯狂改变场景,或者切开场景,露出里面的虚拟蛋糕。

ByteDance 的最新视频应用基于豆瓣系列基础模型,以专有的文档图像转换器(DiT)架构为基础。据信,它们与 Sora 所采用的技术有相似之处。该公司声称已针对商业应用对 DiT 进行了优化,从而有可能降低人工智能视频创作的成本门槛。

豆宝 AI 系列自 5 月份推出以来的爆炸式增长凸显了这些模型的潜力。每日代币处理量从 1,200 亿猛增至 1.3 万亿,使用量增长了十倍。据Kr-Asia 报道,豆包网现在每天处理超过 5000 万张图片和 85 万小时的语音。

字节跳动积极的定价策略推动了这一增长。自 5 月份以来,该公司已将每 1000 个代币的成本降至几分之一,从而引发了阿里巴巴和腾讯等主要企业之间的激烈价格战。

显然,ByteDance 在 TikTok 算法生成方面大量采用人工智能的策略正在取得成效。TikTok 和豆瓣(TikTok 的中文版)是近年来发展最快的社交媒体平台,但它们为一家中国技术公司所有的事实却让西方国家感到担忧。

目前还不清楚字节跳动是否会将其人工智能生成模型整合到其应用程序中--就像Meta将其基于Llama的LLM和生成器整合到Instagram和WhatsApp中一样--更不确定的是,一旦这些模型公开发布,美国公民是否能访问它们。

编辑:安德鲁-海沃德

Source: decrypt.co

Related News

More News

© 2025 DeFi.io