人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

GPT-5只會(huì)更笨!斯坦福萊斯研究警告,AI訓(xùn)AI超過(guò)5次,模型反噬,性能大減

聲明:本文來(lái)自于微信公眾號(hào) 新智元(ID:AI_era),作者:新智元,授權(quán)微新創(chuàng)想轉(zhuǎn)載發(fā)布。

用AI生成的數(shù)據(jù)訓(xùn)練AI,不會(huì)有魔法,只會(huì)被反噬。

近日,萊斯大學(xué)和斯坦福團(tuán)隊(duì)發(fā)現(xiàn),將AI生成的內(nèi)容喂給模型,只會(huì)導(dǎo)致性能下降。

研究人員對(duì)此給出一種解釋,叫做「模型自噬障礙」(MAD)。

論文地址:https://arxiv.org/abs/2307.01850

研究發(fā)現(xiàn)在使用AI數(shù)據(jù),經(jīng)過(guò)第5次迭代訓(xùn)練后,模型就會(huì)患上MAD。66

在合成數(shù)據(jù)上訓(xùn)練AI模型會(huì)逐漸放大偽影

換句話說(shuō),如果不能給模型提供「新鮮的數(shù)據(jù)」,即由人類標(biāo)注的數(shù)據(jù),其輸出質(zhì)量將會(huì)受到嚴(yán)重影響。

拒絕模型「內(nèi)耗」

目前,MAD尚未確認(rèn)會(huì)影響所有AI模型,不過(guò)研究人員已經(jīng)對(duì)自編碼器、高斯混合模型、大語(yǔ)言模型進(jìn)行了驗(yàn)證。

作者寫道,「世界正在奔向一個(gè)未來(lái),生成式AI的爆發(fā),導(dǎo)致了互聯(lián)網(wǎng)上的合成數(shù)據(jù),很快就會(huì)超過(guò)真實(shí)數(shù)據(jù)。」

因此,當(dāng)前的AI模型,正在不知不覺(jué)中接受越來(lái)越多的人工智能合成數(shù)據(jù)的訓(xùn)練。

比如,目前已知且開源的最大規(guī)模多模態(tài)數(shù)據(jù)集LAION-5B,已經(jīng)用于訓(xùn)練當(dāng)前最先進(jìn)的文本-圖像模型,包括Stable Diffusion。

這個(gè)數(shù)據(jù)集就包含了,從早期生成模型中采樣的合成圖像。

合成數(shù)據(jù)受歡迎的主要原因在于4點(diǎn):

– 合成訓(xùn)練數(shù)據(jù)比獲取真實(shí)世界的樣本更容易、更快、更便宜

– 某種情況下,合成數(shù)據(jù)增強(qiáng)可以提高AI系統(tǒng)的性能

– 可以在醫(yī)學(xué)成像或醫(yī)療記錄等敏感應(yīng)用中保護(hù)隱私

– 最重要一點(diǎn),隨著深度學(xué)習(xí)模型參數(shù)越來(lái)越龐大,現(xiàn)幾乎沒(méi)有真實(shí)數(shù)據(jù)可用了

為了獲取更多真實(shí)數(shù)據(jù),就連OpenAI近日與美聯(lián)社簽訂協(xié)議,雙方將共享部分新聞內(nèi)容和技術(shù)。

但是,不管是有意,還是無(wú)意使用合成數(shù)據(jù),已經(jīng)背離了標(biāo)準(zhǔn)的AI訓(xùn)練實(shí)踐:

一代又一代地重復(fù)這一過(guò)程形成了一個(gè)自噬循環(huán)(autophagous loop),也就是自耗(self-consuming)。

不同的自噬環(huán)變化取決于,現(xiàn)有的真實(shí)數(shù)據(jù)和合成數(shù)據(jù)如何組合到未來(lái)的訓(xùn)練集中。

然而,根據(jù)合成數(shù)據(jù)的生成方式,還會(huì)出現(xiàn)其他變化。

比如,研究者或算法通常會(huì)通過(guò)手動(dòng)「挑選」合成數(shù)據(jù)來(lái)引入采樣偏差,以權(quán)衡感知質(zhì)量(即圖像/文本看起來(lái)來(lái)不錯(cuò))與多樣性(不同類型圖像/文本)。

研究者介紹,「質(zhì)量」和「多樣性」兩個(gè)非正式概念,分別與精確度和召回率的統(tǒng)計(jì)指標(biāo)密切相關(guān)。

如果合成數(shù)據(jù)已經(jīng)存在于我們今天的訓(xùn)練數(shù)據(jù)集中,那么自噬循環(huán)在未來(lái)幾乎是不可避免的。

那么影響究竟有多大?

研究人員表示,無(wú)論訓(xùn)練集的組成,或采樣方法如何,自噬循環(huán)對(duì)生成模型的屬性和性能的潛在影響仍知之甚少。

而有一點(diǎn)可以確定的是,使用合成數(shù)據(jù)重復(fù)訓(xùn)練可能會(huì),逐漸放大任何生成模型中存在的偏差和偽影。

總之,這項(xiàng)研究有三個(gè)重要貢獻(xiàn):

1. 自噬循環(huán)的真實(shí)模型

團(tuán)隊(duì)研究了自噬循環(huán)的3種變體:完全合成循環(huán),其中生成模型僅在前幾代的合成樣本上進(jìn)行訓(xùn)練;合成增強(qiáng)循環(huán),其中訓(xùn)練集還包括一組固定的真實(shí)數(shù)據(jù);新數(shù)據(jù)循環(huán),其中訓(xùn)練集還包括每一代的一組新的真實(shí)數(shù)據(jù)。

所有這3種自噬循環(huán)模型的底線是,如果每一代沒(méi)有足夠的新鮮真實(shí)數(shù)據(jù),未來(lái)的生成模型注定會(huì)MAD。

2. 采樣偏差在自噬循環(huán)中起著關(guān)鍵作用

模型實(shí)踐者傾向于手動(dòng)挑選合成數(shù)據(jù),更喜歡高質(zhì)量的樣本,并刪除低質(zhì)量的樣本。此外,最先進(jìn)的生成模型通常具有可控參數(shù),可以以犧牲多樣性為代價(jià)來(lái)提高合成質(zhì)量。

研究證明,通過(guò)這種質(zhì)量多樣性(精確召回)權(quán)衡引起的采樣偏差,對(duì)自噬訓(xùn)練循環(huán)的行為有重大影響。

具體來(lái)講,在沒(méi)有采樣偏差的情況下,自噬會(huì)導(dǎo)致質(zhì)量和多樣性的快速下降,而在采樣偏差的情況下,質(zhì)量可以保持,但多樣性下降得更快。

3. 自噬循環(huán)行為適用于各種生成模型和數(shù)據(jù)集

除了對(duì)簡(jiǎn)單多元高斯和高斯混合模型的分析和實(shí)證研究之外,團(tuán)隊(duì)還在正文和附錄中,證明了主要結(jié)論適用于各種生成模型。

部分實(shí)驗(yàn)結(jié)果

在沒(méi)有采樣偏差的全合成循環(huán)中,完全使用合成數(shù)據(jù)訓(xùn)練生成模型,其合成數(shù)據(jù)的質(zhì)量和多樣性都會(huì)逐代下降。

在全合成循環(huán)中,生成的合成FFHQ和MNIST圖像的FID、精度和多樣性(召回率)

研究者給出了MNIST的真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的t-SNE圖,這些數(shù)據(jù)來(lái)自沒(méi)有采樣偏差的全合成環(huán)路(λ =1)。

可以看到,生成的模式逐漸合并,相互之間失去了分離。到第10代,生成的樣本幾乎無(wú)法辨認(rèn)。

在沒(méi)有采樣偏差的情況下,合成數(shù)據(jù)模型會(huì)偏離真實(shí)模型并合并

研究還發(fā)現(xiàn),提高合成質(zhì)量會(huì)損害合成多樣性。

在高質(zhì)量合成數(shù)據(jù)上訓(xùn)練生成模型總是會(huì)導(dǎo)致合成質(zhì)量或合成多樣性的損失

由于采樣偏差,合成數(shù)據(jù)模型會(huì)圍繞單個(gè)(高質(zhì)量)圖像偏移和崩潰,而不是合并。

給生成數(shù)據(jù)打水印

所有這些會(huì)出現(xiàn)MAD癥狀的模型都已經(jīng)廣泛應(yīng)用,并運(yùn)行一段時(shí)間了:

自編碼器可以處理諸如流行預(yù)測(cè)(例如社交媒體應(yīng)用程序的算法)、圖像壓縮、圖像去噪和圖像生成等任務(wù);

高斯混合模型用于密度估計(jì)、聚類和圖像分割等目的,在統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)中特別有用。

如今流行的 ChatBot, 其應(yīng)用的大型語(yǔ)言模型(如ChatGPT,和Anthropic的Claude)使用自己生成的內(nèi)容進(jìn)行訓(xùn)練時(shí),也容易在訓(xùn)練中出現(xiàn)MAD現(xiàn)象。

同時(shí),這些也強(qiáng)調(diào)了這些AI系統(tǒng)在我們生活中的重要性:算法人工智能模型在企業(yè)和公共領(lǐng)域都得到了廣泛應(yīng)用。

這項(xiàng)研究提供了一種窺探「AI技術(shù)黑箱」的方法。

但也粉碎了我們從某些AI模型中制造一個(gè)「?jìng)}鼠輪」的希望:將數(shù)據(jù)輸入模型,然后將其自身生成的數(shù)據(jù)再次輸入模型,產(chǎn)生更多的數(shù)據(jù)再反饋進(jìn)模型的過(guò)程。

反而這種訓(xùn)練方式會(huì)對(duì)當(dāng)前存在的模型,以及這些模型的應(yīng)用造成威脅。

如果一個(gè)已經(jīng)商業(yè)化使用的模型事實(shí)上是通過(guò)對(duì)其自身的輸出進(jìn)行訓(xùn)練的,那么該模型很可能已經(jīng)向其平均值回歸(記住,這需要大約5個(gè)輸入輸出周期才能顯現(xiàn))。

模型崩潰過(guò)程示意圖

如果該模型向其平均值回歸,那么它在某種程度上已經(jīng)存在著偏見(jiàn),因?yàn)樗鼪](méi)有考慮到本應(yīng)屬于少數(shù)派的數(shù)據(jù)。這也可以稱之為算法上的偏見(jiàn)。

研究結(jié)果中得出的另一個(gè)重要觀點(diǎn)是對(duì)數(shù)據(jù)來(lái)源的關(guān)注。現(xiàn)在更加重要的是能夠?qū)ⅰ冈肌箶?shù)據(jù)與「人工」數(shù)據(jù)區(qū)分開來(lái)。

如果無(wú)法確定哪些數(shù)據(jù)是由LLM或生成圖像應(yīng)用程序創(chuàng)建的,可能會(huì)不小心將其包含在下一代產(chǎn)品的訓(xùn)練數(shù)據(jù)中。

不幸的是,這個(gè)問(wèn)題很可能已經(jīng)無(wú)法挽回:這些類型的網(wǎng)絡(luò)已經(jīng)產(chǎn)生了大量未標(biāo)記的數(shù)據(jù),并被納入其他系統(tǒng)中。

即使我們?cè)贑hatGPT或Midjourney的爆發(fā)之前擁有整個(gè)互聯(lián)網(wǎng)的快照,但長(zhǎng)期以來(lái)AI生成的數(shù)據(jù)每天都在大量涌入全球網(wǎng)絡(luò),更別說(shuō)它們運(yùn)行時(shí)產(chǎn)生的巨量數(shù)據(jù)。

模型崩潰成因的示意圖

但即便如此,至少我們已經(jīng)知道了這一點(diǎn)。

知道這一點(diǎn),意味著尋找一種可以識(shí)別AI生成內(nèi)容的水印(這是絕對(duì)正確的)已經(jīng)成為一項(xiàng)更為重要和更有利可圖的工作,標(biāo)記AI生成數(shù)據(jù)的責(zé)任也變得更為嚴(yán)肅。

除此之外,還有其他方法可以彌補(bǔ)這些偏差。

其中一種方法是簡(jiǎn)單改變模型的權(quán)重:增加分布尾部的結(jié)果的相關(guān)性或頻率,它們將自然地沿著鐘形曲線移動(dòng),靠近均值。這意味著它們就不太容易被修剪掉,從而避免了自動(dòng)生成訓(xùn)練中的數(shù)據(jù)喪失。

模型仍然會(huì)丟失曲線邊緣的數(shù)據(jù),但這些數(shù)據(jù)不再是唯一的數(shù)據(jù)來(lái)源了。

但是,權(quán)重是如何決定的?權(quán)重應(yīng)該如何調(diào)整?頻率應(yīng)該增加多少?

此外,我們也有責(zé)任了解模型微調(diào)的影響、以及這些影響的后果如何影響模型最終的生成內(nèi)容。

以上每個(gè)問(wèn)題的回答都會(huì)引發(fā)一系列其他問(wèn)題的關(guān)注:

與模型回答背后的真實(shí)性相關(guān)的問(wèn)題(其中偏差被稱為幻覺(jué));

模型是否存在偏見(jiàn),以及這種偏見(jiàn)的根源(如果是來(lái)自訓(xùn)練數(shù)據(jù)本身或用于創(chuàng)建網(wǎng)絡(luò)的權(quán)重過(guò)程,現(xiàn)在我們也從MAD過(guò)程中了解到了);

當(dāng)模型訓(xùn)練自己的數(shù)據(jù)時(shí)會(huì)發(fā)生什么…..但如我們所看到的,最后結(jié)果并不理想。

同樣地,這個(gè)問(wèn)題也是不可忽視的:

就像不接觸新知識(shí)的人會(huì)越來(lái)越固步自封和偏執(zhí)。這與「模型在自己生成的內(nèi)容上訓(xùn)練時(shí),它會(huì)崩潰」是相同的道理。

參考資料:

https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-times

https://arxiv.org/pdf/2307.01850.pdf

https://futurism.com/ai-trained-ai-generated-data

https://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開。 必填項(xiàng)已用 * 標(biāo)注