作者指控扎克伯格故意使用盗版数据训练元人工智能

2025-01-10 20:58:38 UTC

最近一份针对 Meta 公司的诉讼文件称，马克-扎克伯格（Mark Zuckerberg）和其他高管不顾内部警告，批准了这一有争议的数据集。

一群作家在最近的一份法庭文件中指控，马克-扎克伯格批准使用盗版书籍来训练 Meta 人工智能，即使在他自己的团队警告这些材料是非法获得的之后也是如此。

这些指控来自于喜剧演员莎拉-西尔弗曼（Sarah Silverman）、克里斯托弗-戈登（Christopher Golden）和理查德-卡德雷（Richard Kadrey）等一批作者于2023年7月在加利福尼亚州联邦法院提起的版权侵权诉讼。他们要求Meta公司赔偿损失并发布禁令，禁止Meta公司使用他们的作品。同年 11 月，法官驳回了大部分作者的诉讼请求，但最近的这些指控可能会给这场法律纠纷注入新的活力。

"原告律师在周三提交的一份文件中说："Meta 的首席执行官马克-扎克伯格（Mark Zuckerberg）批准了 Meta 对 LibGen 数据集的使用，尽管 Meta 的人工智能执行团队（以及 Meta 的其他人）内部担心 LibGen 是'我们知道是盗版的数据集'。原告律师在周三提交的文件中说："尽管存在这些危险信号，但 "在升级之后"，扎克伯格还是给 Meta 的人工智能团队开了绿灯，让他们继续使用这个有争议的数据集。

Meta公司的代表没有立即回应解密的置评请求。

诉讼称，Meta 公司直到最后一刻才试图对此保密。就在 2024 年 12 月 13 日事实披露截止日期前两小时，该公司公布了原告所称的 "迄今为止它所提供的一些最有罪责的内部文件"。

根据法庭文件中的陈述，Meta 公司自己的工程师似乎对这一计划并不满意。这群作者声称，内部信息显示 Meta 工程师对下载盗版材料犹豫不决，其中一人指出："从（Meta 拥有的）公司笔记本电脑上下载 Torrenting 感觉不妥（微笑 emoji）"。然而，他们不仅下载了这些书籍，还系统地删除了版权信息，为人工智能训练做准备。

最新的诉讼文件描绘了一个完全意识到风险的公司：一份内部备忘录警告说："媒体报道暗示我们使用了明知是盗版的数据集，比如 LibGen，可能会损害我们与监管机构的谈判地位。然而，Meta 公司还是一意孤行，在 2024 年 1 月之前通过山洪网络下载和分发（或 "播种"）了盗版内容。

扎克伯格在证词中被问及这些活动时，似乎与这一决定保持了距离，他作证说，这种盗版行为会引起 "很多红旗"，"似乎是件坏事"。

法庭文件还显示，Meta 在处理受版权保护的信息时，更注重模型培训，而不是版权规则。根据这份文件，一名工程师 "从 LibGen 中过滤[......]版权行和其他数据，以准备一个去除 CMI 的版本来训练 Llama"。这种系统性地删除版权信息的做法可能会加强作者的指控，即 Meta 故意试图掩盖其使用盗版材料的事实。

对于 Meta 公司的人工智能雄心来说，这些消息的披露正值关键时刻。该公司一直在人工智能领域努力与 OpenAI 和谷歌竞争，其中 Llama 3.2 是最受欢迎的开源 LLM，而 Meta AI 则是 ChatGPT 的坚实免费竞争对手，具有类似的功能。

由于在训练大型语言模型方面的做法存在问题，这些人工智能公司大多面临着法律诉讼。Meta 已经被另一群作者起诉侵犯版权，OpenAI 目前正面临着不同的诉讼，原因是其 LLM 在受版权保护的材料上进行训练，Anthropic 也面临着来自作者和词曲作者的不同指控。

但总的来说，自从生成式人工智能大行其道以来，科技创业者和创作者们就一直沸沸扬扬。目前，针对人工智能公司自愿使用受版权保护的材料来训练模型的诉讼有数十起之多。不过，正如大多数处于发展前沿的事物一样，我们只能拭目以待，看看法院会如何处理这一切。

Source: decrypt.co

作者指控扎克伯格故意使用盗版数据训练元人工智能

最近一份针对 Meta 公司的诉讼文件称，马克-扎克伯格（Mark Zuckerberg）和其他高管不顾内部警告，批准了这一有争议的数据集。

Related News

More News