ChatGPT版權(quán)第一案:OpenAI面臨六項(xiàng)指控,因輸出圖書摘要被“抓包”
編者按:本文來(lái)自微信公眾號(hào) 騰訊科技(ID:qqtech),作者:Kaysen,微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載
2023年6月28日,第一起具有代表性的ChatGPT版權(quán)侵權(quán)之訴,終于出現(xiàn)在了公眾視野。兩名作家在美國(guó)加州北區(qū)法院,對(duì)Open AI公司發(fā)起了版權(quán)集體訴訟,指控后者未經(jīng)授權(quán)利用自身享有版權(quán)的圖書訓(xùn)練ChatGPT,謀取商業(yè)利益。
原告Paul Tremblay和Mona Awad居住于馬薩諸塞州,分別享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版權(quán);被告Open AI創(chuàng)建和運(yùn)營(yíng)了生成式人工智能產(chǎn)品ChatGPT,目前主要由GPT-3.5和GPT-4兩個(gè)底層大語(yǔ)言模型驅(qū)動(dòng)。
起訴狀指出,雖然原告沒(méi)有授權(quán)Open AI使用自身享有版權(quán)的圖書進(jìn)行模型訓(xùn)練,但ChatGPT卻能夠根據(jù)prompts指令輸出圖書的摘要,而這只有在被告將涉案圖書納入語(yǔ)料庫(kù)加以訓(xùn)練才可能發(fā)生。
因?yàn)檩敵鰣D書摘要而被“抓包”
原告表示,Open AI訓(xùn)練數(shù)據(jù)集中收錄的大量?jī)?nèi)容屬于版權(quán)保護(hù)的作品,這其中便包括原告享有版權(quán)的圖書。但Open AI既沒(méi)有經(jīng)過(guò)原告的同意,也沒(méi)有標(biāo)明內(nèi)容來(lái)源、支付必要的費(fèi)用。而原告出版的圖書具有明確的版權(quán)管理信息,包括出版號(hào)、版權(quán)號(hào)、版權(quán)人姓名以及使用條款等。
原告從既有的事實(shí)和信息可以推斷,ChatGPT之所以可以準(zhǔn)確生成特定圖書的摘要,唯一可解釋的原因便是Open AI獲取、復(fù)制了涉案圖書,并用于旗下大語(yǔ)言模型(GPT3.5 或GPT4)的訓(xùn)練。
原告測(cè)試發(fā)現(xiàn),當(dāng)通過(guò)prompts的方式要求ChatGPT總結(jié)兩部涉案圖書時(shí),ChatGPT可以生成較為準(zhǔn)確的摘要(雖然也存在少量的錯(cuò)誤內(nèi)容)。這表明ChatGPT保存了被訓(xùn)練數(shù)據(jù)集中特定作品的內(nèi)容,并能夠輸出對(duì)應(yīng)的文本。與此同時(shí),ChatGPT通過(guò)對(duì)大語(yǔ)言模型內(nèi)容生成原理的設(shè)計(jì),輸出內(nèi)容并不會(huì)包含原有的版權(quán)管理信息。
“ChatGPT,你是如何運(yùn)行的!”
本案有意思之處在于,原告證明Open AI侵權(quán)的過(guò)程中,對(duì)于ChatGPT基本原理的介紹,是建立在同ChatGPT對(duì)話,讓其“進(jìn)行自我介紹”的基礎(chǔ)之上。具體內(nèi)容總結(jié)如下。
Open AI至今已經(jīng)公開了一系列的大語(yǔ)言模型,包括GPT-1(2018·6)、GPT-2(2019·2)、GPT-3(2020·5)、GPT-3.5(2022·3)以及最新的GPT-4(2023·3)。通常來(lái)講,人工智能軟件旨在借助統(tǒng)計(jì)學(xué)方法,通過(guò)算法模擬人類的邏輯和推理。大語(yǔ)言模型則是一類專門的人工智能軟件,用來(lái)解析和輸出自然語(yǔ)言。
一方面,Open AI以每個(gè)月20美元的價(jià)格將ChatGPT通過(guò)網(wǎng)絡(luò)頁(yè)面的方式提供給用戶。使用者可以選擇兩個(gè)版本的ChatGPT,GPT-3.5模型或者更新后的GPT-4模型。另一方面,ChatGPT也以API的方式提供給軟件開發(fā)者。API接口允許開發(fā)者撰寫程序用于和ChatGPT進(jìn)行數(shù)據(jù)交換,在此情況下則是按照使用量來(lái)計(jì)費(fèi)。
不管是以頁(yè)面還是API方式提供服務(wù),ChatGPT都會(huì)積極響應(yīng)用戶的prompts請(qǐng)求。如果用戶向ChatGPT提問(wèn),它會(huì)給出答案;如果用戶向ChatGPT下指令,ChatGPT會(huì)執(zhí)行;如果用戶要求ChatGPT總結(jié)一本圖書的摘要,ChatGPT依然會(huì)照做。
圖書是大模型訓(xùn)練的核心語(yǔ)料
原告著重論證的觀點(diǎn)是,不同于傳統(tǒng)軟件是由工程師撰寫代碼而成,大語(yǔ)言模型則是通過(guò)“訓(xùn)練”的方式研發(fā)——收集不同來(lái)源的海量?jī)?nèi)容語(yǔ)料并“投喂”給模型,這些語(yǔ)料被稱為訓(xùn)練數(shù)據(jù)集(training dataset)。
大語(yǔ)言模型會(huì)不斷調(diào)整自身的輸出,盡可能的接近被訓(xùn)練作品中的文字組合順序。值得關(guān)注的是,雖然很多內(nèi)容都被用來(lái)訓(xùn)練大語(yǔ)言模型,但圖書一直是訓(xùn)練數(shù)據(jù)集中核心的語(yǔ)料素材,因?yàn)槠涮峁┝烁哔|(zhì)量長(zhǎng)篇寫作的最佳范例。
在2018年6月發(fā)表的企業(yè)論文《通過(guò)生成式預(yù)訓(xùn)練提升語(yǔ)言理解力》中,Open AI披露GPT-1的訓(xùn)練依賴于“BookCorpus”的數(shù)據(jù)集。“BookCorpus”包含7000本涉及探險(xiǎn)、奇幻、浪漫等不同領(lǐng)域的圖書。Open AI指出,之所以圖書作為訓(xùn)練語(yǔ)料尤為重要,是因?yàn)槠浒碎L(zhǎng)篇幅的連續(xù)文本,這可以讓生成式模型學(xué)習(xí)如何處理長(zhǎng)文本信息的能力。
包括Open AI、谷歌、亞馬遜等在內(nèi)的眾多人工智能研發(fā)企業(yè),都利用“BookCorpus”進(jìn)行模型訓(xùn)練。2015年,一個(gè)人工智能研究團(tuán)隊(duì)創(chuàng)建了該數(shù)據(jù)集,其包含的圖書來(lái)源于Smashwords.com網(wǎng)站,但“BookCorpus”在收錄這些圖書時(shí)未獲得版權(quán)人授權(quán)。
揭秘GPT背后的圖書語(yǔ)料庫(kù)
通過(guò)公開檢索Open AI主動(dòng)披露信息(企業(yè)論文)的方式,原告希望論證GPT系列模型的訓(xùn)練建立在,未經(jīng)授權(quán)侵權(quán)利用海量圖書內(nèi)容的基礎(chǔ)之上。在2020年7月發(fā)表的企業(yè)論文《語(yǔ)言模型是小樣本學(xué)習(xí)者》中,Open AI披露GPT-3訓(xùn)練數(shù)據(jù)集中15%的內(nèi)容,來(lái)源于兩個(gè)名為“Books1”“Books2”的電子圖書語(yǔ)料庫(kù)。
雖然Open AI沒(méi)有說(shuō)明“Books1”和“Books2”內(nèi)容的具體情況,但可以通過(guò)相關(guān)線索推斷:第一,兩個(gè)語(yǔ)料庫(kù)均來(lái)自于網(wǎng)絡(luò);第二,兩個(gè)語(yǔ)料庫(kù)的規(guī)模均明顯大于“BookCorpus”。根據(jù)Open AI的披露,“Books1”的規(guī)模是BookCorpus的9倍(約6.3萬(wàn)本書),Books2是42倍(約29.4萬(wàn)本書)。現(xiàn)實(shí)中,只有極少數(shù)的數(shù)據(jù)庫(kù)能夠提供如此規(guī)模的圖書語(yǔ)料。
一方面,“Books1”大概率來(lái)源于“古登堡項(xiàng)目”或“古登堡語(yǔ)料庫(kù)標(biāo)準(zhǔn)化項(xiàng)目”。“古登堡項(xiàng)目”(Project Gutenberg)是一個(gè)匯集“超過(guò)版權(quán)保護(hù)期限”的在線電子書庫(kù)。2020年9月,古登堡項(xiàng)目宣布已經(jīng)收錄超過(guò)6萬(wàn)本書。因?yàn)椴皇馨鏅?quán)保護(hù),古登堡項(xiàng)目一直被廣泛用作人工智能模型訓(xùn)練。2018年,一個(gè)人工智能研究團(tuán)隊(duì)在“古登堡項(xiàng)目”的基礎(chǔ)上,創(chuàng)建了超過(guò)5萬(wàn)本圖書的“古登堡語(yǔ)料庫(kù)標(biāo)準(zhǔn)化項(xiàng)目”(Standardized Project Gutenberg Corpus)。
另一方面,“Books2”極大可能來(lái)源于網(wǎng)絡(luò)上的“影子圖書館”。“Books2”數(shù)據(jù)集大約含有2.94萬(wàn)本書,只有飽受詬病的“影子圖書館”(shadow library),能夠提供如此規(guī)模的圖書語(yǔ)料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子圖書館”一詞由美國(guó)社會(huì)科學(xué)研究理事會(huì),在2011年發(fā)表的《新興經(jīng)濟(jì)體中的媒體盜版問(wèn)題》文章中創(chuàng)造,指代侵權(quán)收錄大量書籍并向公眾免費(fèi)開放的網(wǎng)站。
2023年3月,Open AI發(fā)布GPT-4企業(yè)論文,但表示“出于行業(yè)競(jìng)爭(zhēng)形勢(shì)和產(chǎn)品應(yīng)用安全角度考量,不再對(duì)訓(xùn)練數(shù)據(jù)集的結(jié)構(gòu)和內(nèi)容進(jìn)行相關(guān)披露。”
Open AI面臨的六項(xiàng)侵權(quán)指控
原告針對(duì)Open AI一共發(fā)起了六項(xiàng)指控,前三項(xiàng)涉及版權(quán)侵權(quán),第四項(xiàng)涉及不正當(dāng)競(jìng)爭(zhēng),第五和第六項(xiàng)涉及兩類基本民事責(zé)任——注意義務(wù)和不當(dāng)?shù)美?/strong>
第一、版權(quán)直接侵權(quán)。原告沒(méi)有授權(quán)Open AI對(duì)其圖書進(jìn)行復(fù)制、制作演繹作品,也沒(méi)有授權(quán)Open AI公開展示、分發(fā)上述復(fù)制品或演繹作品。
此外,原告強(qiáng)調(diào),因?yàn)镺pen AI大語(yǔ)言模型需要從原告圖書中提取和保存表達(dá)性信息才能夠運(yùn)行,所以在缺乏原告授權(quán)的情況下,大語(yǔ)言模型本身構(gòu)成侵權(quán)演繹作品。
第二、版權(quán)替代侵權(quán)。原告強(qiáng)調(diào),在缺乏授權(quán)的情況下,大模型每次輸出的內(nèi)容都構(gòu)成侵權(quán)演繹作品。因?yàn)橛袡?quán)利和能力控制大語(yǔ)言模型的內(nèi)容輸出,并從中獲得了經(jīng)濟(jì)利益,所以O(shè)pen AI構(gòu)成版權(quán)替代侵權(quán)。
在美國(guó)判例法體系下,“替代侵權(quán)”和“幫助侵權(quán)”“教唆侵權(quán)”共同構(gòu)成了版權(quán)間接侵權(quán)的完整體系。間接侵權(quán)與直接侵權(quán)相對(duì),意指侵權(quán)人雖然沒(méi)有直接從事版權(quán)專有權(quán)利規(guī)制的行為(即版權(quán)直接侵權(quán)),但卻為版權(quán)直接侵權(quán)提供了一定的助成條件。
第三、違反DMCA中版權(quán)管理信息的規(guī)定。從產(chǎn)品設(shè)計(jì)機(jī)制來(lái)看,ChatGPT輸出的內(nèi)容不會(huì)保留作品的“版權(quán)管理信息”(CMI),所以被告故意移除原告作品版權(quán)管理信息的行為,違反《數(shù)字千年版權(quán)法》(DMCA)的規(guī)定。此外,在未獲授權(quán)的情況下,被告分發(fā)了不含有版權(quán)管理信息的侵權(quán)演繹作品,也違反了DMCA。
“版權(quán)管理信息”是一種能夠識(shí)別有關(guān)作品權(quán)利人、權(quán)利歸屬和使用條件的相關(guān)信息。不管是在美國(guó)是我國(guó),刪除或改變版權(quán)管理信息,或向公眾提供被刪除或改變版權(quán)管理信息的作品,都構(gòu)成違法。
第四、不正當(dāng)競(jìng)爭(zhēng)。Open AI未經(jīng)授權(quán)使用原告受版權(quán)保護(hù)的作品進(jìn)行模型訓(xùn)練,這一行為違反了《加利福尼亞州商業(yè)和職業(yè)條例》,因?yàn)槠渚哂胁徽?dāng)性、不道德性、強(qiáng)迫性并損害了消費(fèi)者利益。
被告有意設(shè)計(jì)了ChatGPT,可以在不標(biāo)明內(nèi)容出處的情況下,輸出原告作品的片段和摘要。ChatGPT通過(guò)隱瞞作者、復(fù)制被侵權(quán)作品內(nèi)容和觀點(diǎn)的方式,研發(fā)商業(yè)產(chǎn)品獲取不公平的利益和名聲。
第五、過(guò)失侵權(quán)即違反注意義務(wù)。Open AI需要承擔(dān)《加州民法典》規(guī)定的注意義務(wù)——所有人對(duì)于他人應(yīng)當(dāng)采取一種合理的行為方式。這一義務(wù)建立在行業(yè)慣例、商業(yè)實(shí)踐、被告掌握的信息以及基于信息所擁有的控制能力基礎(chǔ)之上。
被告一旦為了訓(xùn)練GPT模型而收集原告享有版權(quán)的作品,那么便需要負(fù)有一定的注意義務(wù):當(dāng)預(yù)見到未經(jīng)授權(quán)將作品進(jìn)行模型訓(xùn)練會(huì)對(duì)原告造成損害時(shí),便不應(yīng)再侵權(quán)利用這些作品。
第六、不當(dāng)?shù)美?/strong>原告為創(chuàng)作涉案圖書付出了實(shí)質(zhì)性的時(shí)間和精力。因?yàn)樽陨碜髌繁晃唇?jīng)授權(quán)的用來(lái)訓(xùn)練GPT模型,原告被剝奪了從作品中原本可以獲利的權(quán)利。通過(guò)使用原告作品訓(xùn)練GPT模型獲得商業(yè)利益,占據(jù)這些利益對(duì)于被告而言是不公平的。除非加以禁止或限制,被告的行為將會(huì)給原告造成難以彌補(bǔ)的損害。
寫在最后:本案待探討的三個(gè)問(wèn)題。
作為ChatGPT版權(quán)侵權(quán)的首例代表性訴訟,加州北區(qū)法院做出正式判決仍將經(jīng)歷一個(gè)漫長(zhǎng)的過(guò)程。但在此之前,針對(duì)原告起訴狀中的具體內(nèi)容,仍然有一些問(wèn)題值得關(guān)注和思考。
關(guān)注一:發(fā)現(xiàn)模型侵權(quán)不容易。
大語(yǔ)言模型的訓(xùn)練本質(zhì)上是一種機(jī)器內(nèi)部的、非外顯性作品利用行為,版權(quán)人存在發(fā)現(xiàn)自身作品被侵權(quán)的現(xiàn)實(shí)難題。一般來(lái)說(shuō),只能通過(guò)比對(duì)模型生成內(nèi)容和自身作品存在實(shí)質(zhì)性相似,倒推出模型訓(xùn)練階段存在未經(jīng)授權(quán)的作品利用行為。本案中,原告之所以能夠指控自身圖書被Open AI旗下的大語(yǔ)言模型侵權(quán)訓(xùn)練,便是從發(fā)現(xiàn)ChatGPT輸出了自身作品的摘要,倒推而來(lái)。
但這一主張是否成立仍有待探討。若ChatGPT輸出的作品摘要,僅是建立自身在收集網(wǎng)絡(luò)上原告圖書公開介紹資料的基礎(chǔ)上,而非直接對(duì)原告圖書進(jìn)行復(fù)制和訓(xùn)練,那么該侵權(quán)指控的正當(dāng)性便會(huì)受到動(dòng)搖。原告也承認(rèn)ChatGPT輸出的自身圖書摘要存在少部分事實(shí)錯(cuò)誤,一定程度也表明大模型可能并未完整的學(xué)習(xí)涉案圖書。
關(guān)注二:侵犯何種權(quán)利待論證。
目前來(lái)看,雖然“作品數(shù)據(jù)的儲(chǔ)存行為”形式上可以落入版權(quán)法“復(fù)制權(quán)”的規(guī)制范疇,但核心的“作品數(shù)據(jù)的訓(xùn)練行為”,是否侵權(quán)以及侵犯何種版權(quán)法上的權(quán)利尚未有一致結(jié)論。本案,原告強(qiáng)調(diào)大語(yǔ)言模型的正常運(yùn)行和內(nèi)容輸出,建立在對(duì)作品語(yǔ)料的訓(xùn)練基礎(chǔ)之上,所以大模型訓(xùn)練便構(gòu)成版權(quán)侵權(quán),大模型本身也構(gòu)成侵權(quán)演繹作品。
這一主張亦仍有待探討。除了少數(shù)類似于本案“以prompts方式要求概括、總結(jié)、翻譯特定版權(quán)作品”這類特殊內(nèi)容生成需求之外,絕大多數(shù)情況下大模型接收開放式內(nèi)容生成指令(不限定特定作品、特定作家風(fēng)格),基本不會(huì)輸出特定作品甚至說(shuō)特定作品的片段,也就不構(gòu)成版權(quán)法上的侵權(quán)。
關(guān)注三:上下游責(zé)任需明確。
在大模型版權(quán)領(lǐng)域,模型研發(fā)者對(duì)于大模型本身享有相關(guān)權(quán)利,所以承擔(dān)模型訓(xùn)練涉及的版權(quán)責(zé)任;而對(duì)于大模型輸出的內(nèi)容,從目前行業(yè)實(shí)踐來(lái)看,通行做法是通過(guò)合同方式,明確權(quán)利和責(zé)任均屬于使用者。在2023年7月10日,網(wǎng)信辦發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》也明確認(rèn)可,“提供者應(yīng)當(dāng)與使用者簽訂服務(wù)協(xié)議,明確雙方權(quán)利義務(wù)。”
值得關(guān)注,從原告訴訟請(qǐng)求看,亦遵循了模型訓(xùn)練和內(nèi)容輸出兩個(gè)階段,權(quán)利責(zé)任二分的思路。原告對(duì)于版權(quán)直接侵權(quán)的主張,聚焦于Open AI模型訓(xùn)練階段:一是,未經(jīng)原告授權(quán)在模型訓(xùn)練過(guò)程中制作了圖書的復(fù)制品;二是在缺乏原告授權(quán)的情況下,大語(yǔ)言模型本身構(gòu)成侵權(quán)演繹作品。原告對(duì)于ChatGPT輸出內(nèi)容侵權(quán)的指控,僅是主張Open AI構(gòu)成版權(quán)間接侵權(quán)(替代侵權(quán))。這也意味著對(duì)于大模型輸出的內(nèi)容,是由使用者承擔(dān)版權(quán)直接侵權(quán)責(zé)任,因?yàn)槠湎碛袑?duì)應(yīng)的權(quán)利。
本文為專欄作者授權(quán)微新創(chuàng)想發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表微新創(chuàng)想立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系http://www.i0562.net/。