ChatGPT版權(quán)第一案：OpenAI面臨六項(xiàng)指控，因輸出圖書摘要被“抓包”

由微新創(chuàng)想 · 2023年 8月 11日

編者按：本文來(lái)自微信公眾號(hào) 騰訊科技（ID：qqtech），作者：Kaysen，微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載

2023年6月28日，第一起具有代表性的ChatGPT版權(quán)侵權(quán)之訴，終于出現(xiàn)在了公眾視野。兩名作家在美國(guó)加州北區(qū)法院，對(duì)Open AI公司發(fā)起了版權(quán)集體訴訟，指控后者未經(jīng)授權(quán)利用自身享有版權(quán)的圖書訓(xùn)練ChatGPT，謀取商業(yè)利益。

原告Paul Tremblay和Mona Awad居住于馬薩諸塞州，分別享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版權(quán)；被告Open AI創(chuàng)建和運(yùn)營(yíng)了生成式人工智能產(chǎn)品ChatGPT，目前主要由GPT-3.5和GPT-4兩個(gè)底層大語(yǔ)言模型驅(qū)動(dòng)。

起訴狀指出，雖然原告沒(méi)有授權(quán)Open AI使用自身享有版權(quán)的圖書進(jìn)行模型訓(xùn)練，但ChatGPT卻能夠根據(jù)prompts指令輸出圖書的摘要，而這只有在被告將涉案圖書納入語(yǔ)料庫(kù)加以訓(xùn)練才可能發(fā)生。

因?yàn)檩敵鰣D書摘要而被“抓包”

原告表示，Open AI訓(xùn)練數(shù)據(jù)集中收錄的大量?jī)?nèi)容屬于版權(quán)保護(hù)的作品，這其中便包括原告享有版權(quán)的圖書。但Open AI既沒(méi)有經(jīng)過(guò)原告的同意，也沒(méi)有標(biāo)明內(nèi)容來(lái)源、支付必要的費(fèi)用。而原告出版的圖書具有明確的版權(quán)管理信息，包括出版號(hào)、版權(quán)號(hào)、版權(quán)人姓名以及使用條款等。

原告從既有的事實(shí)和信息可以推斷，ChatGPT之所以可以準(zhǔn)確生成特定圖書的摘要，唯一可解釋的原因便是Open AI獲取、復(fù)制了涉案圖書，并用于旗下大語(yǔ)言模型（GPT3.5 或GPT4）的訓(xùn)練。

原告測(cè)試發(fā)現(xiàn)，當(dāng)通過(guò)prompts的方式要求ChatGPT總結(jié)兩部涉案圖書時(shí)，ChatGPT可以生成較為準(zhǔn)確的摘要（雖然也存在少量的錯(cuò)誤內(nèi)容）。這表明ChatGPT保存了被訓(xùn)練數(shù)據(jù)集中特定作品的內(nèi)容，并能夠輸出對(duì)應(yīng)的文本。與此同時(shí)，ChatGPT通過(guò)對(duì)大語(yǔ)言模型內(nèi)容生成原理的設(shè)計(jì)，輸出內(nèi)容并不會(huì)包含原有的版權(quán)管理信息。

“ChatGPT，你是如何運(yùn)行的！”

本案有意思之處在于，原告證明Open AI侵權(quán)的過(guò)程中，對(duì)于ChatGPT基本原理的介紹，是建立在同ChatGPT對(duì)話，讓其“進(jìn)行自我介紹”的基礎(chǔ)之上。具體內(nèi)容總結(jié)如下。

Open AI至今已經(jīng)公開了一系列的大語(yǔ)言模型，包括GPT-1（2018·6）、GPT-2（2019·2）、GPT-3（2020·5）、GPT-3.5（2022·3）以及最新的GPT-4（2023·3）。通常來(lái)講，人工智能軟件旨在借助統(tǒng)計(jì)學(xué)方法，通過(guò)算法模擬人類的邏輯和推理。大語(yǔ)言模型則是一類專門的人工智能軟件，用來(lái)解析和輸出自然語(yǔ)言。

一方面，Open AI以每個(gè)月20美元的價(jià)格將ChatGPT通過(guò)網(wǎng)絡(luò)頁(yè)面的方式提供給用戶。使用者可以選擇兩個(gè)版本的ChatGPT，GPT-3.5模型或者更新后的GPT-4模型。另一方面，ChatGPT也以API的方式提供給軟件開發(fā)者。API接口允許開發(fā)者撰寫程序用于和ChatGPT進(jìn)行數(shù)據(jù)交換，在此情況下則是按照使用量來(lái)計(jì)費(fèi)。

不管是以頁(yè)面還是API方式提供服務(wù)，ChatGPT都會(huì)積極響應(yīng)用戶的prompts請(qǐng)求。如果用戶向ChatGPT提問(wèn)，它會(huì)給出答案；如果用戶向ChatGPT下指令，ChatGPT會(huì)執(zhí)行；如果用戶要求ChatGPT總結(jié)一本圖書的摘要，ChatGPT依然會(huì)照做。

圖書是大模型訓(xùn)練的核心語(yǔ)料

原告著重論證的觀點(diǎn)是，不同于傳統(tǒng)軟件是由工程師撰寫代碼而成，大語(yǔ)言模型則是通過(guò)“訓(xùn)練”的方式研發(fā)——收集不同來(lái)源的海量?jī)?nèi)容語(yǔ)料并“投喂”給模型，這些語(yǔ)料被稱為訓(xùn)練數(shù)據(jù)集（training dataset）。

大語(yǔ)言模型會(huì)不斷調(diào)整自身的輸出，盡可能的接近被訓(xùn)練作品中的文字組合順序。值得關(guān)注的是，雖然很多內(nèi)容都被用來(lái)訓(xùn)練大語(yǔ)言模型，但圖書一直是訓(xùn)練數(shù)據(jù)集中核心的語(yǔ)料素材，因?yàn)槠涮峁┝烁哔|(zhì)量長(zhǎng)篇寫作的最佳范例。

在2018年6月發(fā)表的企業(yè)論文《通過(guò)生成式預(yù)訓(xùn)練提升語(yǔ)言理解力》中，Open AI披露GPT-1的訓(xùn)練依賴于“BookCorpus”的數(shù)據(jù)集。“BookCorpus”包含7000本涉及探險(xiǎn)、奇幻、浪漫等不同領(lǐng)域的圖書。Open AI指出，之所以圖書作為訓(xùn)練語(yǔ)料尤為重要，是因?yàn)槠浒碎L(zhǎng)篇幅的連續(xù)文本，這可以讓生成式模型學(xué)習(xí)如何處理長(zhǎng)文本信息的能力。

包括Open AI、谷歌、亞馬遜等在內(nèi)的眾多人工智能研發(fā)企業(yè)，都利用“BookCorpus”進(jìn)行模型訓(xùn)練。2015年，一個(gè)人工智能研究團(tuán)隊(duì)創(chuàng)建了該數(shù)據(jù)集，其包含的圖書來(lái)源于Smashwords.com網(wǎng)站，但“BookCorpus”在收錄這些圖書時(shí)未獲得版權(quán)人授權(quán)。

揭秘GPT背后的圖書語(yǔ)料庫(kù)

通過(guò)公開檢索Open AI主動(dòng)披露信息（企業(yè)論文）的方式，原告希望論證GPT系列模型的訓(xùn)練建立在，未經(jīng)授權(quán)侵權(quán)利用海量圖書內(nèi)容的基礎(chǔ)之上。在2020年7月發(fā)表的企業(yè)論文《語(yǔ)言模型是小樣本學(xué)習(xí)者》中，Open AI披露GPT-3訓(xùn)練數(shù)據(jù)集中15%的內(nèi)容，來(lái)源于兩個(gè)名為“Books1”“Books2”的電子圖書語(yǔ)料庫(kù)。

雖然Open AI沒(méi)有說(shuō)明“Books1”和“Books2”內(nèi)容的具體情況，但可以通過(guò)相關(guān)線索推斷：第一，兩個(gè)語(yǔ)料庫(kù)均來(lái)自于網(wǎng)絡(luò)；第二，兩個(gè)語(yǔ)料庫(kù)的規(guī)模均明顯大于“BookCorpus”。根據(jù)Open AI的披露，“Books1”的規(guī)模是BookCorpus的9倍（約6.3萬(wàn)本書），Books2是42倍（約29.4萬(wàn)本書）。現(xiàn)實(shí)中，只有極少數(shù)的數(shù)據(jù)庫(kù)能夠提供如此規(guī)模的圖書語(yǔ)料。

一方面，“Books1”大概率來(lái)源于“古登堡項(xiàng)目”或“古登堡語(yǔ)料庫(kù)標(biāo)準(zhǔn)化項(xiàng)目”。“古登堡項(xiàng)目”（Project Gutenberg）是一個(gè)匯集“超過(guò)版權(quán)保護(hù)期限”的在線電子書庫(kù)。2020年9月，古登堡項(xiàng)目宣布已經(jīng)收錄超過(guò)6萬(wàn)本書。因?yàn)椴皇馨鏅?quán)保護(hù)，古登堡項(xiàng)目一直被廣泛用作人工智能模型訓(xùn)練。2018年，一個(gè)人工智能研究團(tuán)隊(duì)在“古登堡項(xiàng)目”的基礎(chǔ)上，創(chuàng)建了超過(guò)5萬(wàn)本圖書的“古登堡語(yǔ)料庫(kù)標(biāo)準(zhǔn)化項(xiàng)目”（Standardized Project Gutenberg Corpus）。

另一方面，“Books2”極大可能來(lái)源于網(wǎng)絡(luò)上的“影子圖書館”。“Books2”數(shù)據(jù)集大約含有2.94萬(wàn)本書，只有飽受詬病的“影子圖書館”（shadow library），能夠提供如此規(guī)模的圖書語(yǔ)料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子圖書館”一詞由美國(guó)社會(huì)科學(xué)研究理事會(huì)，在2011年發(fā)表的《新興經(jīng)濟(jì)體中的媒體盜版問(wèn)題》文章中創(chuàng)造，指代侵權(quán)收錄大量書籍并向公眾免費(fèi)開放的網(wǎng)站。

2023年3月，Open AI發(fā)布GPT-4企業(yè)論文，但表示“出于行業(yè)競(jìng)爭(zhēng)形勢(shì)和產(chǎn)品應(yīng)用安全角度考量，不再對(duì)訓(xùn)練數(shù)據(jù)集的結(jié)構(gòu)和內(nèi)容進(jìn)行相關(guān)披露。”

Open AI面臨的六項(xiàng)侵權(quán)指控

原告針對(duì)Open AI一共發(fā)起了六項(xiàng)指控，前三項(xiàng)涉及版權(quán)侵權(quán)，第四項(xiàng)涉及不正當(dāng)競(jìng)爭(zhēng)，第五和第六項(xiàng)涉及兩類基本民事責(zé)任——注意義務(wù)和不當(dāng)?shù)美?/strong>

第一、版權(quán)直接侵權(quán)。原告沒(méi)有授權(quán)Open AI對(duì)其圖書進(jìn)行復(fù)制、制作演繹作品，也沒(méi)有授權(quán)Open AI公開展示、分發(fā)上述復(fù)制品或演繹作品。

此外，原告強(qiáng)調(diào)，因?yàn)镺pen AI大語(yǔ)言模型需要從原告圖書中提取和保存表達(dá)性信息才能夠運(yùn)行，所以在缺乏原告授權(quán)的情況下，大語(yǔ)言模型本身構(gòu)成侵權(quán)演繹作品。

第二、版權(quán)替代侵權(quán)。原告強(qiáng)調(diào)，在缺乏授權(quán)的情況下，大模型每次輸出的內(nèi)容都構(gòu)成侵權(quán)演繹作品。因?yàn)橛袡?quán)利和能力控制大語(yǔ)言模型的內(nèi)容輸出，并從中獲得了經(jīng)濟(jì)利益，所以O(shè)pen AI構(gòu)成版權(quán)替代侵權(quán)。

在美國(guó)判例法體系下，“替代侵權(quán)”和“幫助侵權(quán)”“教唆侵權(quán)”共同構(gòu)成了版權(quán)間接侵權(quán)的完整體系。間接侵權(quán)與直接侵權(quán)相對(duì)，意指侵權(quán)人雖然沒(méi)有直接從事版權(quán)專有權(quán)利規(guī)制的行為（即版權(quán)直接侵權(quán)），但卻為版權(quán)直接侵權(quán)提供了一定的助成條件。

第三、違反DMCA中版權(quán)管理信息的規(guī)定。從產(chǎn)品設(shè)計(jì)機(jī)制來(lái)看，ChatGPT輸出的內(nèi)容不會(huì)保留作品的“版權(quán)管理信息”（CMI），所以被告故意移除原告作品版權(quán)管理信息的行為，違反《數(shù)字千年版權(quán)法》（DMCA）的規(guī)定。此外，在未獲授權(quán)的情況下，被告分發(fā)了不含有版權(quán)管理信息的侵權(quán)演繹作品，也違反了DMCA。

“版權(quán)管理信息”是一種能夠識(shí)別有關(guān)作品權(quán)利人、權(quán)利歸屬和使用條件的相關(guān)信息。不管是在美國(guó)是我國(guó)，刪除或改變版權(quán)管理信息，或向公眾提供被刪除或改變版權(quán)管理信息的作品，都構(gòu)成違法。

第四、不正當(dāng)競(jìng)爭(zhēng)。Open AI未經(jīng)授權(quán)使用原告受版權(quán)保護(hù)的作品進(jìn)行模型訓(xùn)練，這一行為違反了《加利福尼亞州商業(yè)和職業(yè)條例》，因?yàn)槠渚哂胁徽?dāng)性、不道德性、強(qiáng)迫性并損害了消費(fèi)者利益。

被告有意設(shè)計(jì)了ChatGPT，可以在不標(biāo)明內(nèi)容出處的情況下，輸出原告作品的片段和摘要。ChatGPT通過(guò)隱瞞作者、復(fù)制被侵權(quán)作品內(nèi)容和觀點(diǎn)的方式，研發(fā)商業(yè)產(chǎn)品獲取不公平的利益和名聲。

第五、過(guò)失侵權(quán)即違反注意義務(wù)。Open AI需要承擔(dān)《加州民法典》規(guī)定的注意義務(wù)——所有人對(duì)于他人應(yīng)當(dāng)采取一種合理的行為方式。這一義務(wù)建立在行業(yè)慣例、商業(yè)實(shí)踐、被告掌握的信息以及基于信息所擁有的控制能力基礎(chǔ)之上。

被告一旦為了訓(xùn)練GPT模型而收集原告享有版權(quán)的作品，那么便需要負(fù)有一定的注意義務(wù)：當(dāng)預(yù)見到未經(jīng)授權(quán)將作品進(jìn)行模型訓(xùn)練會(huì)對(duì)原告造成損害時(shí)，便不應(yīng)再侵權(quán)利用這些作品。

第六、不當(dāng)?shù)美?/strong>原告為創(chuàng)作涉案圖書付出了實(shí)質(zhì)性的時(shí)間和精力。因?yàn)樽陨碜髌繁晃唇?jīng)授權(quán)的用來(lái)訓(xùn)練GPT模型，原告被剝奪了從作品中原本可以獲利的權(quán)利。通過(guò)使用原告作品訓(xùn)練GPT模型獲得商業(yè)利益，占據(jù)這些利益對(duì)于被告而言是不公平的。除非加以禁止或限制，被告的行為將會(huì)給原告造成難以彌補(bǔ)的損害。

寫在最后：本案待探討的三個(gè)問(wèn)題。

作為ChatGPT版權(quán)侵權(quán)的首例代表性訴訟，加州北區(qū)法院做出正式判決仍將經(jīng)歷一個(gè)漫長(zhǎng)的過(guò)程。但在此之前，針對(duì)原告起訴狀中的具體內(nèi)容，仍然有一些問(wèn)題值得關(guān)注和思考。

關(guān)注一：發(fā)現(xiàn)模型侵權(quán)不容易。

大語(yǔ)言模型的訓(xùn)練本質(zhì)上是一種機(jī)器內(nèi)部的、非外顯性作品利用行為，版權(quán)人存在發(fā)現(xiàn)自身作品被侵權(quán)的現(xiàn)實(shí)難題。一般來(lái)說(shuō)，只能通過(guò)比對(duì)模型生成內(nèi)容和自身作品存在實(shí)質(zhì)性相似，倒推出模型訓(xùn)練階段存在未經(jīng)授權(quán)的作品利用行為。本案中，原告之所以能夠指控自身圖書被Open AI旗下的大語(yǔ)言模型侵權(quán)訓(xùn)練，便是從發(fā)現(xiàn)ChatGPT輸出了自身作品的摘要，倒推而來(lái)。

但這一主張是否成立仍有待探討。若ChatGPT輸出的作品摘要，僅是建立自身在收集網(wǎng)絡(luò)上原告圖書公開介紹資料的基礎(chǔ)上，而非直接對(duì)原告圖書進(jìn)行復(fù)制和訓(xùn)練，那么該侵權(quán)指控的正當(dāng)性便會(huì)受到動(dòng)搖。原告也承認(rèn)ChatGPT輸出的自身圖書摘要存在少部分事實(shí)錯(cuò)誤，一定程度也表明大模型可能并未完整的學(xué)習(xí)涉案圖書。

關(guān)注二：侵犯何種權(quán)利待論證。

目前來(lái)看，雖然“作品數(shù)據(jù)的儲(chǔ)存行為”形式上可以落入版權(quán)法“復(fù)制權(quán)”的規(guī)制范疇，但核心的“作品數(shù)據(jù)的訓(xùn)練行為”，是否侵權(quán)以及侵犯何種版權(quán)法上的權(quán)利尚未有一致結(jié)論。本案，原告強(qiáng)調(diào)大語(yǔ)言模型的正常運(yùn)行和內(nèi)容輸出，建立在對(duì)作品語(yǔ)料的訓(xùn)練基礎(chǔ)之上，所以大模型訓(xùn)練便構(gòu)成版權(quán)侵權(quán)，大模型本身也構(gòu)成侵權(quán)演繹作品。

這一主張亦仍有待探討。除了少數(shù)類似于本案“以prompts方式要求概括、總結(jié)、翻譯特定版權(quán)作品”這類特殊內(nèi)容生成需求之外，絕大多數(shù)情況下大模型接收開放式內(nèi)容生成指令（不限定特定作品、特定作家風(fēng)格），基本不會(huì)輸出特定作品甚至說(shuō)特定作品的片段，也就不構(gòu)成版權(quán)法上的侵權(quán)。

關(guān)注三：上下游責(zé)任需明確。

在大模型版權(quán)領(lǐng)域，模型研發(fā)者對(duì)于大模型本身享有相關(guān)權(quán)利，所以承擔(dān)模型訓(xùn)練涉及的版權(quán)責(zé)任；而對(duì)于大模型輸出的內(nèi)容，從目前行業(yè)實(shí)踐來(lái)看，通行做法是通過(guò)合同方式，明確權(quán)利和責(zé)任均屬于使用者。在2023年7月10日，網(wǎng)信辦發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》也明確認(rèn)可，“提供者應(yīng)當(dāng)與使用者簽訂服務(wù)協(xié)議，明確雙方權(quán)利義務(wù)。”

值得關(guān)注，從原告訴訟請(qǐng)求看，亦遵循了模型訓(xùn)練和內(nèi)容輸出兩個(gè)階段，權(quán)利責(zé)任二分的思路。原告對(duì)于版權(quán)直接侵權(quán)的主張，聚焦于Open AI模型訓(xùn)練階段：一是，未經(jīng)原告授權(quán)在模型訓(xùn)練過(guò)程中制作了圖書的復(fù)制品；二是在缺乏原告授權(quán)的情況下，大語(yǔ)言模型本身構(gòu)成侵權(quán)演繹作品。原告對(duì)于ChatGPT輸出內(nèi)容侵權(quán)的指控，僅是主張Open AI構(gòu)成版權(quán)間接侵權(quán)（替代侵權(quán)）。這也意味著對(duì)于大模型輸出的內(nèi)容，是由使用者承擔(dān)版權(quán)直接侵權(quán)責(zé)任，因?yàn)槠湎碛袑?duì)應(yīng)的權(quán)利。

本文為專欄作者授權(quán)微新創(chuàng)想發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表微新創(chuàng)想立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系http://www.i0562.net/。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

ChatGPT版權(quán)第一案：OpenAI面臨六項(xiàng)指控，因輸出圖書摘要被“抓包”

因?yàn)檩敵鰣D書摘要而被“抓包”

“ChatGPT，你是如何運(yùn)行的！”

圖書是大模型訓(xùn)練的核心語(yǔ)料

揭秘GPT背后的圖書語(yǔ)料庫(kù)

Open AI面臨的六項(xiàng)侵權(quán)指控

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

ChatGPT版權(quán)第一案：OpenAI面臨六項(xiàng)指控，因輸出圖書摘要被“抓包”

因?yàn)檩敵鰣D書摘要而被“抓包”

“ChatGPT，你是如何運(yùn)行的！”

圖書是大模型訓(xùn)練的核心語(yǔ)料

揭秘GPT背后的圖書語(yǔ)料庫(kù)

Open AI面臨的六項(xiàng)侵權(quán)指控

您可能還喜歡...

在淘寶，山寨機(jī)永不落幕

人工智能帶來(lái)教育領(lǐng)域的變革：個(gè)性化學(xué)習(xí)成為可能

楊元慶與黃仁勛放大招：推出混合人工智能

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

ChatGPT版權(quán)第一案：OpenAI面臨六項(xiàng)指控，因輸出圖書摘要被“抓包”

“ChatGPT，你是如何運(yùn)行的！”

在淘寶，山寨機(jī)永不落幕