《紐約時報》禁止人工智能公司使用其內(nèi)容進行模型算法訓(xùn)練
微新創(chuàng)想(idea2003.com) 8月15日消息:據(jù) Adweek 報道,紐約時報在 8 月初更新了其服務(wù)條款,禁止將其文章和圖片用于人工智能訓(xùn)練。此舉發(fā)生在科技公司繼續(xù)通過像 ChatGPT 和 Google Bard 這樣的 AI 語言應(yīng)用獲取數(shù)據(jù)的大規(guī)模未經(jīng)授權(quán)抓取的情況下。
新的條款禁止未經(jīng)明確書面許可使用時報的內(nèi)容,包括文章、視頻、圖片和元數(shù)據(jù),用于訓(xùn)練任何 AI 模型。在服務(wù)條款的第 2.1 節(jié)中,紐約時報稱其內(nèi)容僅供讀者的「個人非商業(yè)使用」,非商業(yè)使用不包括「開發(fā)任何軟件程序,包括但不限于訓(xùn)練機器學(xué)習(xí)或人工智能(AI)系統(tǒng)」。
在接下來的第 4.1 節(jié)中,條款規(guī)定,未經(jīng)紐約時報的事先書面同意,任何人都不得「將內(nèi)容用于開發(fā)任何軟件程序,包括但不限于訓(xùn)練機器學(xué)習(xí)或人工智能(AI)系統(tǒng)?!?/strong>
紐約時報還概述了違反限制規(guī)定的后果:「進行禁止使用服務(wù)的行為可能導(dǎo)致對用戶及協(xié)助用戶的人員的民事、刑事和/或行政處罰、罰款或制裁?!?/strong>
盡管聽起來很威脅,但限制性使用條款以前并沒有阻止將整個互聯(lián)網(wǎng)轉(zhuǎn)化為機器學(xué)習(xí)數(shù)據(jù)集。目前所有大型可用的語言模型,包括 OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2 和 Google 的 PaLM 2,都是在從互聯(lián)網(wǎng)抓取的大量材料的基礎(chǔ)上進行訓(xùn)練的。通過一種稱為無監(jiān)督學(xué)習(xí)的過程,將 web 數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),使 AI 模型通過分析單詞之間的關(guān)系獲得語言的概念意義。
使用抓取的數(shù)據(jù)來訓(xùn)練 AI 模型的爭議性,在美國法庭上尚未完全解決,已經(jīng)導(dǎo)致至少一起指控 OpenAI 涉嫌剽竊的訴訟。上周,美聯(lián)社和其他幾家新聞機構(gòu)發(fā)表了一封公開信,稱「必須制定法律框架來保護驅(qū)動 AI 應(yīng)用的內(nèi)容」,其中提出了其他關(guān)切。
OpenAI 可能預(yù)期未來會面臨持續(xù)的法律挑戰(zhàn),并已開始采取一些舉措,可能是為了應(yīng)對這些批評,OpenAI 最近宣布,網(wǎng)站運營商現(xiàn)在可以阻止其 GPTBot 網(wǎng)絡(luò)爬蟲抓取其網(wǎng)站。這導(dǎo)致一些網(wǎng)站和作者公開表示將阻止這個爬蟲。
微軟還在自己的條款和條件中添加了一些新的限制,禁止人們使用其人工智能產(chǎn)品「創(chuàng)建、訓(xùn)練或改進(直接或間接)任何其他人工智能服務(wù)」,同時禁止用戶從其人工智能工具中抓取或以其他方式提取數(shù)據(jù)。
目前已經(jīng)抓取的內(nèi)容已經(jīng)成為 GPT-4 的一部分,包括紐約時報的內(nèi)容。也許我們要等到 GPT-5 才能看到 OpenAI 或其他 AI 供應(yīng)商是否尊重內(nèi)容所有者希望被排除在外的愿望。如果沒有的話,可能會出現(xiàn)新的 AI 訴訟或法規(guī)。