村上春树、史蒂芬·金盗版书成训练数据，AI 巨头无一幸免

为了训练大型语言模型，OpenAI、Meta、谷歌、微软等公司从互联网上收割了数百万受版权保护的作品，在版权法的灰色地带中游弋。然而，这些公司目前正面临大量的官司，原告称该公司训练数据集中的大多数书籍来自盗版来源和非授权网站。一旦被判侵权，公司有可能将面临巨额罚款或重构算法的局面。这也导致，如今 AI 公司越来越不愿意分享 AI 训练数据的详细信息。

最近，有人发现一个叫 Book3的数据集，包含近20万本书籍，囊括村上春树、史蒂芬·金等畅销书作家的著作。这个数据集被用在了训练 AI 模型上，但最近遭到反盗版组织的反复攻击。因为这些书籍都来自于盗版网站和非授权网站，所以这个数据集被认为是非法的训练数据。

版权问题这把利刃，正悬在 AI 公司们的头上。一些公开的盗版语料库已经被盯上，AI 公司们需要更加注意自己的训练数据来源，以避免侵权风险。同时，也需要更加透明地公开其训练数据的来源和内容，以增强公众的信任和合法性。EleutherAI 的 Pythia 研究论文提到，其使用 Pile 数据集进行训练，其中包含多个英语文本集，其中之一是名为「Books3」的数据集。Books3是用于训练 AI 的最著名的盗版书籍库之一，最初由 AI 开发人员和知名开源 AI 支持者 Shawn Presser 于2020年上传。它包含37GB 的文本，包括19600本纯文本格式的书籍，并在盗版网站 bibliotik 上托管。

然而，反盗版组织 Rights Alliance 正在采取行动，代表相关利益群体，试图限制未经授权的 AI 训练数据的使用。这段时间，该组织已向相关站点发送删除通知，导致尝试访问 Books3数据集的用户会看到404错误。Rights Alliance 还联系了 AI 模型托管平台 Hugging Face（该站点托管了 Books3下载链接）以及 EleutherAI。然而，尽管一些链接被下架，该数据集的副本并未消失，仍然在其他地方出现。

在针对 Books3数据集的争议中，Shawn Presser 继续发布新的下载链接。他表示，除非反对者打算让ChatGPT下线，或者通过诉讼将其告到灭亡，否则，他希望每个人都能够制作自己的 ChatGPT。他还称自己愿意入狱10个月（海盗湾创始人服过的最高刑期），因为他推动了科学进步并赋予了人们复制 ChatGPT 的能力。

Shawn Presser 指出，复制 ChatGPT 这样的模型的唯一方法，是创建像 Books3这样的数据集。他表示，每个营利性公司都会秘密地这样做，不会将数据集发布给公众。没有 Books3，我们就生活在一个只有 OpenAI和其他亿万美元公司才能访问这些书籍的世界中，这意味着你不能制作自己的ChatGPT 。没有人能。只有亿万美元的公司才有资源做到这一点。村上春树、史蒂芬·金盗版书成训练数据，AI 巨头无一幸免

包括 Meta 在内的一些公司曾经使用过 Book3，另外，Meta、谷歌都使用过的 C4训练数据集也被诟病过，现在这些公司对其语言模型中的内容更为保密。Meta 的 Llama2增加了40% 的数据，但在其白皮书中，该公司对其最新的大语言模型使用了什么数据更为犹豫，唯一提到的是「一个新的混合的公开可用在线数据」。随着 AI 和版权之间的摩擦升温，公司越来越不愿意分享 AI 训练数据的详细信息。超过一万名作家敦促AI公司停止使用其作品，除非科技公司为此付费。美国的作家协会已向巨头们发出了公开信，包括脸书、谷歌、元、Stability AI、IBM和微软公司的各大CEO，要求他们停止未经许可使用他们的作品，或对使用作品进行补偿。其中包括《达芬奇密码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自由》作者乔纳森·弗兰岑等人都签署了这封公开信，签署的作家名单长达100多页。村上春树、史蒂芬·金盗版书成训练数据，AI 巨头无一幸免

该作家协会正尝试先在不提起诉讼的情况下解决争端，因为诉讼需要大量的资金，而且需要很长时间。但也有一些文学界人士愿意直接在法庭上与科技公司对抗，控诉Meta或谷歌等使用盗版来训练他们的AI。此外，文学经纪人们正在与出版商商讨，要更新出版合同条款，禁止未经授权的AI训练用途，大部分出版商都愿意限制AI使用他们的出版物。

根据美国作家协会的调查，90%的作家认为，作家应该获得对其作品用于训练生成式人工智能的补偿，65%的作家支持建立一个集体授权制度，以补偿作者的作品被用于训练生成式AI。此外，69%的作家认为他们的职业受到生成式AI的威胁，70%的作家认为出版商将开始使用AI来完全或部分生成书籍，取代人类作者。

除了发公开信、打官司、完善合同，出版业还在进一步寻求立法。美国作家协会的人正在游说制定相关法律、法规和政策，其中包括在同意方面，要求在生成式人工智能中使用作家作品时获得许可；在补偿方面，为那些希望允许其作品用于生成式人工智能培训的作家提供补偿；在透明度方面，要求人工智能开发者透明披露他们用于培训其人工智能的作品。

他们也期望，生成式AI的输出使用到作家的作品时，要获得许可并建立相应的补偿机制，或者当在提示中使用作家的姓名、身份或作品标题时，也应获得许可。此外，他们要求作者、出版商、平台和市场标明AI生成的作品，并在作品很大一部分（例如超过10-20%）由AI生成时进行标识。

该作家协会在官方声明中称：“我们需要确保人类创作者得到补偿，这不仅是为了创作者本身，而是为了确保我们的书籍和艺术继续反映出我们的真实和想象的经验，开拓我们的思维方式，教导我们新的思维方式，并推动我们社会的发展，而不是重复旧观念。”新闻机构与科技公司的关系日益紧张，除了作家和艺术家，其他类型的内容创作者也纷纷加入起诉 AI 公司的行列。一些新闻机构批评科技公司未经授权或补偿就使用他们的内容。

例如，纽约时报正在考虑对 OpenAI 提起诉讼，声称 OpenAI 的ChatGPT使用了该报的数据进行训练，而未经纽约时报许可。在过去的几个月里，OpenAI 和纽约时报一直在试图达成一项有关纽约时报内容的许可协议。但是，谈判还没有结果，存在破裂的可能。

在最近对其服务条款政策的更改中，明确禁止将其庞大的媒体档案用于训练「任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统」的目的。该政策适用于纽约时报的文本内容、照片、视频和元数据，并明确禁止网络爬虫访问这些数据来训练专有产品。

假设法院判定 OpenAI 等 AI 公司的训练行为属于侵权， OpenAI 可能会被迫停止使用受版权保护的数据，并在不使用受版权保护的数据的前提下，重新构建其算法。这将会引发多大的麻烦？

科技公司也试图与新闻媒体建立关系。例如，谷歌曾试图争取像纽约时报、华盛顿邮报等新闻机构的支持，试图向他们推销 AI 工具。此外，还有 AI 公司向新闻非营利机构提供微薄的慈善捐款。

在另一方面，也有新闻机构对科技公司的态度不那么强硬。美联社今年就与OpenAI达成了一项为期两年的许可协议，同意将美联社的内容授权给 OpenAI使用训练。作为回报，OpenAI提供了美联社访问「OpenAI的技术和产品专业知识」的权利。悬在AI公司头上的剑：版权问题与AI发展的法律困境

AI公司在获取海量互联网数据以训练其模型的过程中，已经引发了法律问题。越来越多的人正在起诉AI公司。

今年，美国一律师事务所相继对OpenAI 、Meta等AI巨头提起诉讼，指控他们未经授权或未经补偿地使用成千上万名作家的作品来训练其大语言模型。预计这一诉讼规模将十分庞大，因为其他内容创作者也可能受到启发采取法律行动。

此外，AI图像生成工具StableDiffusion背后的StabilityAI也陷入了版权官司。StableDiffusion是在LAION-5B数据集上进行训练的，其中包含58.5亿个图像文本对，大多数都受版权保护。GettyImages正在起诉StabilityAI，指控其未经授权在超过1200万张GettyImages上训练AI图像生成模型。

许多艺术家和利益相关者也对StabilityAI、DeviantArt和Midjourney等公司提起诉讼，指控他们侵犯版权、侵犯肖像权、不正当竞争和不正当获利，并寻求赔偿和禁令。

微软推出的编程工具Copilot也面临集体诉讼。Copilot是GitHub与 OpenAI 合作开发的基于人工智能的自动编程产品，主要利用GitHub上的公共代码库，在数十亿行公开可用的代码上进行了训练，能通过简单提示替用户编写代码。开源程序员和律师指控他们从事开源软件盗版，被告包括GitHub、微软及其人工智能技术合作伙伴 OpenAI 。

如果面临诉讼，AI公司可能会援引所谓的“公平使用原则”来为其辩护，该原则允许在某些情况下无需许可即可使用作品，包括教学、批评、研究和新闻报道。然而，问题在于，AI训练是否适用“公平使用原则”。

几年前，美国作家协会也曾起诉谷歌，理由是谷歌未购买其图书馆项目中收录的书籍。当时，联邦上诉法院判决认为，谷歌为其图书馆项目扫描了数百万本书的数字副本是合法的“公平使用”，而非侵犯版权。关键在于，谷歌的数字图书馆并没有为这些书创造出“重大市场替代品”，这意味着它与原作并无竞争关系。

然而，目前各国政府正努力将生成式AI纳入立法范畴。欧盟也在制定一项AI法案，该法案将迫使公司将训练模型信息透明化。上半年，美国作家协会已两次访问国会山，讨论生成式AI和作家保护措施的问题，涉及的问题包括集体授权和版权保护、反垄断豁免权以及AI标签和透明度要求。

“除非国会采取干预措施，以确保生成式人工智能技术的开发和使用受到监管，否则驱动原创表达并丰富我们文化交流的重要版权激励将变得毫无意义。”该作家协会在官方声明中称。

从现有情况看，虽然一些人担心训练AI可能会引发版权问题，但也有人认为， OpenAI 等AI公司不需要特别的许可协议来训练模型，版权担忧不利于AI发展进步；有人则认为，取得作者的同意是至关重要的，创作者应该有拒绝的权利，或者，AI公司至少应该购买训练数据的书籍。

技术正在做人类历史上从未发生过的事情，AI训练数据方面的开源精神应该有底线吗？未来的法律是掣肘还是保护？如何平衡AI的发展与尊重人类创作权益，可能是和“通用人工智能何时到来”同样重要的问题。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

村上春树、史蒂芬·金盗版书成训练数据，AI 巨头无一幸免

相关文章

联系我们

微信747975991

村上春树、史蒂芬·金盗版书成训练数据，AI 巨头无一幸免

相关文章

相关新闻

联系我们

微信747975991