Meta 深陷盗版泥潭，邮件曝光 81.7 TB AI 训练数据黑幕

xxn 阅读：2250 2025-02-07 16:02:22 评论：0

特别感谢IT之家网友 koraori 提供的信息！

根据 IT之家 2 月 7 日的报道，科技媒体 Ars Technica 今天（2 月 7 日）发布了相关博文，指出 Meta 公司再度因其 AI 模型的训练数据来源而被卷入法律争议。

原告提供了一封电子邮件作为证据，显示 Meta 不仅清楚借助 LibGen 数据库进行 AI 训练是盗版行为，还试图掩盖其通过种子下载（torrenting）获取至少 81.7 TB 数据的行为，甚至采取了“隐身模式”来进行操作。

根据博文引用，Meta 研究员 Frank Zhang 的内部邮件透露，为了防止外界追踪数据下载源，Meta 特别选择不使用 Facebook 服务器，并将此操作称为“隐身模式”。

负责该项目的 Meta 高管迈克尔·克拉克（Michael Clark）在证词中表示，Meta 对设置进行了修改，以尽可能减少种子的传播。

作者称，未经修改的电子邮件显示，使用 LibGen 的决定是在“之前已上报给 MZ（马克·扎克伯格）”后作出的，这与扎克伯格之前表示对 LibGen 的使用不知情的说法相抵触。

作者认为，这些新提交的证据与 Meta 以前的证词相悖，因此呼吁再次传唤相关员工作证。虽然后者坚称使用 LibGen 进行 AI 训练符合“合理使用”，但新的证据无疑使其面临更多的法律难题。

Meta 先前曾尝试驳斥有关其通过种子下载传播版权作品的指控，声称原告没有提供任何通过其种子下载获得书籍的实例。然而，随着关于 Meta 种子下载行为的更多信息被曝光，Meta 的辩护策略似乎正面临越来越大的压力。

广告声明：文内包含的外部链接（包括但不限于超链接、二维码、口令等），旨在传达更多信息，节省筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。