王勇-合伙人、律师、专利代理师

 

       当前,以生成式人工智能为代表的大语言模型技术和产业发展迅速,未来将极大地影响人类社会的方方面面。由国家互联网信息办公室联合其他六个部委于2023年7月10日公布的《生成式人工智能服务管理暂行办法》第22条对“生成式人工智能技术及服务”进行了定义,即“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”,包括通过可编程接口等方式提供生成式人工智能服务。从技术上来说,生成式人工智能是在预训练过程中使用大规模语料库进行自监督学习的自然语言处理模型,然后利用所生成的模型根据用户的提示产生新内容,模型学习和生成的内容可以是文本、图像、音视频或其组合。目前具有一定实际应用效果的模型其参数量极其庞大(规模已达千亿级),需要海量的训练数据。庞大的高质量的训练数据是人工智能模型生成理想结果的基础。从训练数据的来源来看,主要包括自有数据、开源数据集、外采数据、数据自动化采集及合成数据等;但从数据是否具有保护的性质来看,可以分为不受版权保护的公有信息以及受版权保护的作品数据。

 

       理论上,生成式人工智能在训练数据环节面临的问题涉及到许多法律风险,比如与个人信息相关的隐私权、人格、商业秘密、不正当竞争以及数据版权等。近年来因人工智能产品的应用在全球各地引发诸多诉讼。从2023年到2024年美国就发生了几十起涉及人工智能大模型的诉讼案件,其中争议最多的是训练数据的著作权(即版权)问题。例如,2024年6月,美国唱片工业协会(RIAA)联合索尼音乐娱乐公司、环球音乐集团和华纳唱片公司等对人工智能初创企业Suno和Udio提起诉讼,指控它们未经授权使用唱片公司的音频资料训练其模型。类似的情况是在2023年12月,《纽约时报》就曾起诉OpenAI和微软,指控其未经授权使用报社的文章进行大模型训练。这些法律战背后的深层次问题,是生成式人工智能技术在数据使用和版权保护之间的激烈冲突,其成为人工智能产业发展道路上的一个绕不过去的障碍。因此,随着生成式人工智能的发展以及广泛应用,数据来源的合法性问题成为人工智能模型的一个核心法律风险。

 

       以下将以我国现有著作权法的角度出发探讨大语言模型的训练数据的版权困境以及要采取的相应对策。

 

       人工智能是新一轮科技革命和产业变革的重要驱动力量,包括美国在内的许多国家纷纷加大对人工智能研究的投入,设立专门的科研基金,支持高校、科研机构和企业开展人工智能研究,同时发布国家人工智能战略,明确发展目标、重点领域和政策导向,为人工智能发展提供清晰的路线图;同时,一些大型跨国高科技企业大量增加人工智能硬件和软件方面的投资,不断推出各种人工智能产品,希望在这一新领域的竞争中处于领先和有利地位。

 

       如何加快发展新一代人工智能也是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。国务院在2017年7月印发的《新一代人工智能发展规划》是我国第一个在人工智能领域进行系统部署的战略规划,重点对 2030 年前我国新一代人工智能发展的总体思路、战略目标、主要任务和保障措施进行系统部署,并随后制定和颁布了《中华人民共和国数据安全法》,《中华人民共和国个人信息保护法》,《人工智能标准化白皮书》,《国家新一代人工智能标准体系建设指南》等,并出台相关的部门管理规章《互联网信息服务算法推荐管理规定》和《生成式人工智能服务管理暂行办法》等。

 

       关于大语言模型的训练数据,在《生成式人工智能服务管理暂行办法》第7条明确要求:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型。”

 

       在目前的人工智能开发实践中,大语言模型训练数据库的数据来源可大致分为三种:第一种,公有领域的内容,任何人可以不受限制地使用和加工的数据,包括本身不受法律保护的内容及已过著作权保护期间进入公有领域的内容;第二种,通过签订合同获得合法授权的内容,即通过与权利人签订合同从而获得有效授权,合法使用相关数据及内容;第三种,未经授权的信息及内容,指的是数据及内容本身为受著作权保护的客体,其获取渠道通常为利用“爬虫”等技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。通过上述方式所构建的训练数据库,由于涉及未经授权使用受著作权保护的数据及内容,因此具有著作权侵权风险。

 

       在我国现行《著作权法》框架下,上述训练数据使用过程的不同行为均可能存在著作权侵权风险。围绕数据或者作品的使用,人工智能模型学习的过程大致被划分为三个阶段:首先是数据内容收集阶段,在该阶段,训练数据的收集和存储有可能构成复制权侵权;其次是训练阶段,其利用第一阶段所收集的数据进行模型的训练,涉及对所收集数据进行清洗、标准化、标注与特征提取等步骤,存在侵犯改编权等权利的风险;以及模型应用输出阶段,在该阶段,根据用户提示或者指引,利用所训练的模型产生数据输出,也可能构成与传播相关的权利侵权。限于篇幅,本文仅仅涉及在数据内容收集阶段和训练阶段的版权问题。

 

       在传统的版权许可机制中,通常采用版权“事前授权”方式,简单来说,就是在作品被使用之前,使用者需要获得版权所有者的正式许可,并支付相应的报酬。这种授权模式是知识经济时代尊重他人智力成果、维护市场运行的基础模式,其核心在于通过著作权法赋予著作权人一种谈判的机会与能力,使之能在市场的运作中实现智力成果的有效流转,促进创新成果的产出与知识的分享。这是一种主动、有计划的版权保护方式,旨在提前厘清权利义务关系,避免后续发生纠纷。

 

       但是这一传统的行之有效的许可模式在面对当前的大模型训练,已经完全失灵。一方面,大模型训练涉及的作品数量众多、来源各异、权属不同,若采用事先授权许可的方式,需要精准地将受保护的作品从海量数据中进行分离、提取,并找到每一部版权作品对应的权利人与之协商授权,并支付价格不一的授权费用,这一过程会极其漫长复杂难以操作;另一方面,由于训练所需数据量极其庞大,不同于能够基于单件作品使用情况来进行计费的传统领域,在大模型训练中可能需要将数以亿计的作品用于训练,这会加剧许可费堆积问题,这种费用的叠加将导致最终的总许可费过高而难以开展商业活动。因此,当前大模型训练中未经许可将版权作品用于机器学习已然成为常态,版权市场交易陷入失灵的困境。

 

       为了促进生成式人工智能技术的创新发展,使得人工智能大模型的开发者能够充分自由的利用作品进行数据训练而无需经过著作权人的许可,人们将目光投向了著作权法中的著作权合理使用制度,认为对于不经授权的大规模复制受版权保护作品来训练人工智能,著作权的合理使用制度可能是一种相对可行的合法庇护。所谓著作权合理使用制度,是指在符合特定条件情形下,法律允许他人可自由使用受著作权保护的客体而无须经由著作权人同意,或是向著作权人支付相应报酬,其为著作权限制与例外的核心制度之一。合理使用的制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求,促进创新和文化多样性发展,保障公众基本利益。

 

       中国对著作权合理使用的相关规定分别在《著作权法》和《著作权法实施条例》中体现。

 

       我国《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行;……(十三)法律、行政法规规定的其他情形”。

 

       《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。

 

       因此,根据著作权法的上述规定,版权合理使用需要符合著作权法第24条列举的具体场景和事由之一,同时满足所规定的三步检验标准(即作品已发表、不影响作品正常使用、没有不合理损害著作权人利益)。

 

       以下对著作权法的上述规定进行具体分析。显然,前述著作权法第24条中第(一)项和(六)项规定的内容与训练数据的使用有些关联。关于《著作权法》第24条第(一)项的规定“为个人学习、研究或者欣赏,使用他人已经发表的作品”,根据目前的司法实践以及理论研究,通常从以下几个方面理解该规定及其限制:1)使用目的的限制:该规定明确了使用他人作品的目的必须是出于个人的学习、研究或欣赏,这些目的都具有非商业性质,主要是为了个人的知识获取、技能提升或文化享受;2)使用对象的限制:合理使用的对象被限定为“已经发表的作品”,这意味着未发表的作品不包含在内。对于未发表作品的未经许可使用,可能会影响作品的正常使用,并且不合理地损害著作权人的合法权益,因此不构成合理使用;3)使用范围的限制:虽然该规定没有直接限制使用方式和使用范围,但实践中通常会考虑使用行为导致的诉争作品的传播范围。如果作品的传播范围仅限于个人,通常可认为满足“为个人学习、研究或者欣赏”的要求。相反,如果作品传播范围较广,例如导致其向不特定的公众公开,则已经明显超出“个人”的范畴,不构成合理使用;4)非营利性原则:个人使用应当与非营利目的结合起来,如果为了牟取私利,例如通过大量复制而获得报酬,就不再是个人使用等。因此,根据上述理解,很难将目前的大模型训练使用数据或者作品的行为归为个人学习、研究和欣赏的范围。

 

       关于《著作权法》第24条第(六)项,人工智能数据训练性质和该项规定中的“科学研究”似乎接近。虽然法律中没有对何为“少量复制”进行规定,但是该款“少量复制”的规定是无论如何不可能与大模型训练中如此大规模使用训练数据的情形相容。因此适用第(六)项的规定来论证训练数据的使用适用合理使用的情形,也很难行得通。

 

       《著作权法》第24条第(十三)项的规定,即“法律、行政法规规定的其他情形”,是一项兜底条款,意在涵盖可能无法包含在前述十二项合理使用中的其他特殊情形,是2020 年11 月修正后的《著作权法》中加入的内容。随着该项内容的加入,还将判断合理使用通常遵照的“三步检验标准”(three-step test)正式纳入著作权法中。 “三步检验标准”,又称“三步检验法”,即在适用范围上要限于特例、使用方式上不与作品的正常使用冲突、使用结果上没有不合理的侵害著作权人的合法权益。

 

       青海省高级人民法院在《北京全景视觉网络科技股份有限公司与青海日报社侵害作品信息网络传播权纠纷二审民事判决书》中,将《著作权法》规定的十二种合理使用情形的共同特点总结为:一是公益目的,不涉及商业经营即不以盈利为目的;二是适当使用而不是突出使用,并且不破坏作品的完整性和美感;三是应当在使用时指明作者姓名、作品名称,不得影响该作品的正常使用,并不得侵犯著作权人其他合法权利。

 

       关于其他行政法规规定的合理使用,《信息网络传播权保护条例》第六条和第七条规定的在信息网络传播场景中合理使用的具体情形,并未超出《著作权法》规定的特定合理使用作品的范围。2023 年7月国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》第7条虽然对机器学习的知识产权合规提出了要求,但相应的知识产权保护规则尚未予以完善。

 

       关于合理使用中的其他特殊情形,虽然在司法实践中存在有个别突破《著作权法》规定的十二种情形和行政法规规定的情况,但是迄今为止,尚未有任何行政法规明确规定大模型使用训练数据属于合理使用的范畴。

 

       因此,在理论上,我国的著作权法中可能存在将训练数据的使用纳入合理使用的特例的可能性,但是分析一下大模型训练的发展历程,可以看出这种特例缺乏一定的正当性。

 

       首先,目前训练一个通用大模型需要大量的硬件资源,尤其是高性能的GPU。以ChatGPT为例,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元。在训练成本方面,根据《2024年人工智能指数报告》,OpenAI的GPT-4等前沿模型系统的训练成本预估在7800万美元。谷歌的Gemini Ultra模型的计算成本花费预估为1.91亿美元。这些数据表明,训练前沿的大型语言模型需要巨额的资金投入。除了硬件成本外,大模型的运行还有持续的运营成本,包括电力消耗和数据中心维护等费用。据估算,运行ChatGPT的成本约为每天100,000美元,或每月约耗费300万美元。

 

       显然,要建立和使用一个语言大模型,其资源投入不是普通的公司或者组织所能承受之重,除了个别以国家资金支持的之外,当前大量正在运行或即将推出的一些大模型都是由诸如Micorsoft、Google、OpenAI、百度等大型高科技公司控制,它们为了抢占人工智能的制高点,纷纷投入巨额资金,开展了性能方面的竞赛角逐。

 

       人工智能的概念于1956年提出,到如今已接近70年,而生成式人工智能产品的问世,只不过是最近两三年的事情,在这之前的大部分时间关于人工智能的研究基本上都局限在理论探索以及科学研究领域,其成果或者应用也局限在企业、研究所的实验室中。但时至今日,基本上国内外的一些大型IT企业都推出了自己的人工智能产品,如百度的“文心一言”,科大讯飞的“星火大模型”,腾讯的“混元大模型”等生成式人工智能产品等。美国的OpenAI第一个推出生成式人工智能产品ChatGPT,是目前最成功的人工智能公司之一。网络搜索巨头谷歌拥有DeepMind、Gemini等产品,微软不仅开发了许多自己的生成式人工智能工具,如copilot,同时支持和资助OpenAI的新技术。这些产品一经面世,就得到了用户的青睐,收获了大量的用户,包括付费用户。与此同时,这些企业的市值或估值也水涨船高。

 

       显然,目前狂热的大模型性能的竞赛与角逐,已经很难以非商业目的来解释。资本与技术在大模型训练方面的淘金热,几乎都是以追求现实与未来的超额回报为目的。因此,如果将大模型的训练学习认为是合理使用,这些人工智能技术的开发者就能够持续获得大量免费、优质的版权内容,不断优化其算法,提高内容生成的质量,进而从技术市场中获取更丰厚的利益。与之对应,无数的作者虽然提供了丰富的版权内容,但却未能从中获取任何利益,甚至可能因为生成内容在作品市场具有代替效应而影响其原本所具有的收益。这不仅可能会对作者的原作品市场造成损害,长此以往还会进一步损害公共利益。

 

       利益平衡是我国知识产权法律体系的一项重要原则。显然,在人工智能时代,传统的知识产权规则再一次遇到挑战,面临困境,必须随着利益再平衡的需求进行调整。人工智能大模型训练数据的版权合法性问题的实质是版权保护与技术创新的冲突,过度保护著作权人的利益会阻碍技术产业的创新发展,反之,过度倾向于技术产业的政策也会损害作品市场中的激励机制和文化多样性。因此,规制人工智能机器学习需要以利益平衡为理念,在版权保护和技术创新这两种价值之间找到平衡的支点,促进版权产业和人工智能产业的协同发展。 

 

       笔者认为,著作权法中的著作权集体管理机制或许是目前法律框架下解决训练数据版权许可的一种相对可行的办法。

 

       著作权集体管理机制是指著作权人和与著作权有关的权利人通过中间组织对外发放著作权使用许可、收取许可费报酬并向著作权人进行分配,甚至发动侵权诉讼的一种制度,它包括以下几个方面的特点:1)集中行使权利:著作权集体管理组织经权利人授权,集中行使权利人的有关权利并以自己的名义进行相关活动,包括使用授权、收取使用费以及提起诉讼等;2)降低交易成本:著作权集体管理机制通过集中管理的方式,降低因权利归属分散和使用方式多元带来的高额交易成本,并减少作品在流转过程中因繁冗交易程序导致的价值损耗;3)方便使用者:集体管理制度为使用者提供一站式许可,让使用者一次性获得多数作品的著作权,避免侵权风险的同时也满足了大规模使用作品的商业需求。

 

       因此,将两者进行相比,可以看出目前的大模型训练数据具有著作权集体管理同样的一些特性:1)涉及的版权作品和版权人众多,但是单个作品的交易频次很低;2)逐个进行交易的难度大,要事先与版权人逐一解决版权问题几乎是不可能完成的任务;3)相应的,完成交易的成本可能会成为无法承受之重,阻碍版权交易的实现。因此借鉴现有的著作权集体管理机制来解决大模型训练数据的版权问题成为一个相对可行的自然选择。

 

       我国目前已有音乐、音像、文字、摄影和电影五个著作权集体管理组织。人工智能研发机构可以借鉴这些著作权集体管理组织的方式对其训练数据的版权进行著作权集体授权。在集体管理的模式下,分散的个体利益被予以集中,个体作者的谈判地位将得以提升,通过“一揽子”协议的集中授权而省去了单个作品逐一达成交易的作品搜寻、来源识别、协商谈判等成本,从而促进作品的利用和传播,能满足机器学习场景下对规模化作品使用的需求。

 

       因此,在人工智能训练数据的著作权授权过程中,人工智能开发者可以通过著作权集体管理组织获得某一领域的作品授权,充分发挥著作权集体管理的保障效能,减少开发者的数据合法性风险,在简化作品获取和使用程序的同时,保证了作品权利人的经济利益,同时也鼓励企业积极地进行技术创新,利用高质量的版权作品发展出新的技术市场,可以促进经济增长,为公共福祉带来增益,能够实现兼顾版权保护与技术发展的双重目标。

 

       通过集体管理模式,管理机构可以代表众多的版权人与各个人工智能开发者谈判许可条件,双方当事人可以平等协商,通过谈判达成许可协议,确定费率标准;协商不成的,则通过仲裁或诉讼确定。政府也可以通过组织有代表性的著作权人和技术研发者进行谈判,以确定能够反映市场真实情况的付费标准。目前国外已有模型开发者与版权所有人谈判成功的例子,比如 在2024年5月22日,OpenAI与新闻集团达成合作协议,协议允许OpenAI获得新闻集团旗下主要新闻和信息出版物的当前和存档内容, 双方达成五年的作品使用协议,支付约2.5亿美元(约合人民币 18.1 亿元)的许可费用。这些媒体包括《华尔街日报》、《巴伦周刊》、《纽约邮报》、《泰晤士报》、《太阳报》等十余家媒体。

 

       相应地,为了保障集体管理模式的顺利实施,还应当构建信息披露制度,要求人工智能模型开发者公开其用于数据训练的作品信息,打破数据训练环节的信息和数据的秘密状态,以方便集体管理组织查阅作品使用清单,及时向使用者收取费用,维护权利人的合法权益,而且能够使主管部门有效行使监督管理职能,确保人工智能模型训练学习的版权合规。

 

       综上所述,人类已经进入到了人工智能时代,生成式人工智能的兴起给版权制度带来了全新挑战。由于人工智能大模型训练所需要的作品数据是以亿来计的,面对海量的作品使用需求,如何兼顾技术发展的产业利益与创作者的权利,已成为了新时代著作权法绕不过去的一个问题。人工智能大模型训练数据的特点决定了利用著作权的版权集体管理机制来解决其版权合法性具有一定的可行性,既降低了著作权人和人工智能开发者之间的交易成本,包括搜寻成本、谈判成本等,也能够解决海量作品授权问题,提高授权效率、减少交易主体、降低权利人协商成本和监督成本,为人工智能开发者提供一站式许可,让人工智能开发者一次性获得众多作品的著作权,在避免侵权风险的同时也满足了大规模使用作品的商业需求,从而在实现版权激励与保护的私权利益的同时,维护和平衡社会公众利益,造福社会。

 

 

作者简介:

 

 

       王勇先生于1991年毕业于上海华东师范大学计算机科学系。1994年在中国科学院计算技术研究所获硕士学位,2005年获得中国人民大学法学硕士学位。王勇先生于1994年至2006年在中国专利代理(香港)有限公司从事专利代理工作,2007年加入泛华伟业知识产权代理有限公司任高级合伙人。

 

        王勇先生中华全国专利代理师协会会员,中华全国专利代理师协会电子、信息技术专业委员会委员,国际许可证贸易工作者协会(LES)中国分会会员;国际保护知识产权协会(AIPPI)中国分会会员;国际知识产权律师联合会(FICPI)中国分会会员。中华全国专利代理师协会专利代理师培训讲师。

 

       王勇先生的业务领域主要涉及计算机硬件、计算机软件、通信技术、半导体器件及制备工艺、自动控制及家用电器等领域。王勇先生长期从事知识产权保护的咨询、代理工作,曾代理来自国内外申请人的数千件专利申请,在专利申请文件撰写、审查意见答复、专利申请复审、专利无效、专利行政诉讼、侵权诉讼、集成电路布局保护和计算机软件保护等方面拥有丰富的经验。作为富有经验的律师和专利代理人,王勇先生曾在涉及世界多家著名跨国公司的数十件专利案件中作为指导者和主要负责律师参与诉讼。

 

 北京朝阳区朝阳门外大街16号 中国人寿大厦10层1002-1005       +86-10-85253778       mail@panawell.com

版权所有:北京泛华伟业知识产权代理有限公司    技术支持:汉邦未来 京ICP备18047873号-1