不择手段求AI突破？Meta海量盗版电子书下载引爆法律风暴

2025-02-09 10:53:06 631 大屏时代

近日，一位图书作者对Meta提起诉讼，指控该公司为训练其AI模型，不惜违法下载数十TB盗版电子书，引发了广泛关注。泄露的邮件显示，Meta曾公然承认，通过一个名为“安娜的档案”（Anna's Archive）的渠道，从争议性数据集LibGen中批量获取了数千万本盗版书籍的数字资料。

海量数据背后的“盗版帝国”

根据法院文件，Meta利用该渠道下载的数据总量至少达81.7TB，其中就包括来自知名盗版平台Z-Library和LibGen的35.7TB内容。更令人震惊的是，之前Meta还曾从LibGen额外下载过80.6TB数据。图书作者指出，这一行为实际上构成了非法种子下载，而目前曝光的数字可能只是其盗版行为的冰山一角。据估计，现有数据仅占Meta盗版版权作品总量的0.008%，暗示着真正的盗版规模可能远远超出公众所知。

内部质疑声浪与法律风险

内部邮件进一步揭露了Meta员工对这一做法的担忧。2023年4月，研究工程师尼古拉·巴什利科夫在一封邮件中直言：“用公司的笔记本电脑下BT感觉不妥。”到了2023年9月，巴什利科夫愈加焦虑，不仅加大了抗议力度，还向法律团队求助。他明确指出，利用Torrents下载文件实质上是在“播种”——即对外共享内容，而这在法律上是严令禁止的。

然而，即便面临种种法律和伦理风险，Meta仍然选择继续这条道路，并试图将数据集存储在非Meta服务器上，以规避追责的可能。