国内思考:更加关注AI模型训练中的版权问题虽然国内目前尚未出现类似于“Chat GPT”和“Stable Diffusion”般的现象级应用,但AIGC领域的侵权诉讼也已出现。关注度较高的两个案件分别是2018年的“菲林诉百度案”和2019年的“腾讯诉盈讯案”。但上述案件涉及更多的是AIGC“小模型时代”,对于特定领域(法律、财经)内容的生成和输出,模型训练数据需求量仍较低。特定专业数据库和公开信息即可满足,不完全等同于当下AIGC“大模型时代”多类型、多领域海量数据的训练要求。“菲林诉百度案”涉及,在享有合法授权的“科威先行数据库”基础上生成输出的内容;“腾讯诉盈讯案”涉及,在“股市历史和实时数据”这类不受版权法保护的事实信息的基础上生成和输出的内容。各界的关注点,也多停留在AIGC输出内容“是否构成作品”以及“权利归属何方”。但随着国内AIGC技术的应用与发展,AIGC模型训练和构建中的版权保护也需要保持重视。国内重点科技企业和科研机构已经在AIGC领域完成技术、产业布局。在全球超千亿参数的大模型中,中国企业或机构占1/3,比如过去几年国内相继推出了百度文心大模型、腾讯混元大模型等。而我国发展人工智能具有的海量数据、丰富场景和用户基础,正是未来AIGC“大模型时代”发展和竞争的有力优势。如何破局:AIGC内容生产模式的版权治理探索思考(一):可否增加新的“合理使用”情形?在规则层面,2018年日本《著作权法》修订中增加了“灵活的权利限制条款”,为AIGC技术爬取与利用版权作品创造了条件。新条款规定,如果互联网公司对作品的使用“不侵害著作权所有者利益”或者“对所有权的损害程度轻微”,则可不经权利人许可而直接使用。欧盟则于2019年正式通过《单一数字市场版权指令》,创设文本与数据挖掘(TDM)的例外,支持数据科学和人工智能的发展。但如果权利人以适当的方式明确保留对作品或其他客体的使用,则不适用该例外。日本与欧盟在这一领域的做法,为当前AIGC版权侵权治理提供了一个可供参考的路径。整体来看,日本倾向于从结果出发具体认定AIGC技术利用版权作品是否合法,最终还是需要落脚到具体个案的分析;而欧盟则主张保障版权人事前选择权利以避免侵权的发生,强调数据的开发利用不得侵害权利人的利益。思考(二):可否搭建有效的“作品退出机制”?在实操层面,据报道,Stability AI公司近期表示将修改《用户协议》中“数据库不得加入或退出”的规定,允许权利人从后续发布的Stable Diffusion 3.0的训练数据集中删除自己的作品。版权人可在“Have I Been Trained”网站上找到自己的作品,选择退出数据训练集。[13]具言之,在将版权作品纳入AIGC模型训练数据库前,给予版权人一定的期限,自由选择是否从训练数据库中将其版权作品删除。若版权人在规定期限内提出反对意见,则应当尊重其意愿,删除相关作品;若伴权人未提出反对意见,则默认允许作品用于数据训练。需要指出的是,在将版权作品上传至网络空间时已做出明确禁止使用声明的版权人同样应当视为“提出反对意见”的主体。在退出机制的具体建构上,应当尽可能保证版权人的知情权与选择权。在AIGC模型训练前,要及时通过各类渠道发布其训练数据库的搭建信息,并在技术上为版权人提供便利的作品查询与检索机制,保证有可靠的渠道了解到版权作品是否被纳入至相关数据库。思考(三):可否优化AIGC模型的版权保护机制?在技术层面,优化与完善模型设计,也是AIGC避免版权侵权风险的重要途径。来自伦敦玛丽女王大学的研究团队指出,AIGC模型在创新能力方面存在固有的限制,无法以创造性的方式与训练数据保持差异。为了解决这些局限性,可通过对AIGC模型的优化与重写,使其主动偏离训练数据。[14]此种“偏离”作用于生成结果上,能在一定程度上避免对原版权作品的侵权。目前,鉴于AIGC生成内容是否构成版权法上的作品加以保护,仍处于探讨之中,未有定论。有必要通过外部检测技术或者完善AIGC模型标注机制,对AIGC内容进行打标,和自然人创作的内容加以区分,防止后续可能涉及的版权法律风险及应对处理。2023年2月1日,Open AI宣布推出名为“AI Text Classifier”的文本检测器,来辅助辨别文本到底是人类撰写还是AI生成。虽然目前这项技术的准确度仍有待提升,但可以通过机器学习自动优化,代表着一种“技术自治”的发展方向。