人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

全球大型網(wǎng)站正在阻止 OpenAI 等人工智能爬蟲(chóng)訪問(wèn)其內(nèi)容

微新創(chuàng)想(idea2003.com) 9月2日消息:根據(jù)人工智能內(nèi)容檢測(cè)器 Originality.AI最新數(shù)據(jù),全球前 1000 個(gè)網(wǎng)站中有近 20% 阻止爬蟲(chóng)機(jī)器人收集網(wǎng)絡(luò)數(shù)據(jù)用于 AI 服務(wù)

在缺乏明確法律或監(jiān)管規(guī)定管理 AI 使用版權(quán)材料的情況下,大小不一的網(wǎng)站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬蟲(chóng),并宣布所收集到的數(shù)據(jù)「可能被用于改進(jìn)未來(lái)模型」,承諾排除付費(fèi)內(nèi)容并指導(dǎo)網(wǎng)站如何禁止該爬蟲(chóng)。隨后,包括《紐約時(shí)報(bào)》、路透社和 CNN 等知名新聞網(wǎng)站開(kāi)始阻止 GPTBot,并且許多其他網(wǎng)站也效仿。

根據(jù) Originality.AI 的數(shù)據(jù),在全球前 1000 個(gè)最受歡迎的網(wǎng)站中,阻止 OpenAI ChatGPT bot 的數(shù)量從 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封鎖 ChatGPT bot 的最大網(wǎng)站是亞馬遜、Quora 和 Indeed。數(shù)據(jù)顯示,更大型的網(wǎng)站更有可能已經(jīng)封鎖了 AI 爬蟲(chóng)機(jī)器人。

Common Crawl Bot 是另一個(gè)定期收集某些 AI 服務(wù)使用的 Web 數(shù)據(jù)的爬蟲(chóng)程序,在全球前 1000 個(gè)頂級(jí)網(wǎng)站上被屏蔽率為 6.77%。

任何您可以從 Web 瀏覽器訪問(wèn)的頁(yè)面都可以被爬蟲(chóng)程序「抓取」,它們就像瀏覽器一樣運(yùn)行,但將材料存儲(chǔ)在數(shù)據(jù)庫(kù)中而不是向用戶顯示。

這就是搜索引擎如 Google 收集信息的方式。網(wǎng)站所有者一直有能力發(fā)布指令,告訴這些爬蟲(chóng)程序離開(kāi)他們的網(wǎng)站,但合作完全是自愿性質(zhì),并且惡意操作者可以忽略這些指令。

谷歌和其他網(wǎng)絡(luò)公司認(rèn)為其數(shù)據(jù)爬蟲(chóng)工作屬于合理使用范圍,但許多出版商和知識(shí)產(chǎn)權(quán)持有人長(zhǎng)期以來(lái)一直反對(duì)此做法,并且該公司因此面臨了多起訴訟。大型語(yǔ)言模型和生成式 AI 的興起使得這個(gè)問(wèn)題重新受到關(guān)注,因?yàn)?AI 公司派出自己的爬蟲(chóng)程序收集數(shù)據(jù)以培訓(xùn)其模型并提供聊天機(jī)器人所需素材。

自從 Google 和其他搜索網(wǎng)站將用戶引導(dǎo)至其支持廣告的網(wǎng)站后,一些出版商至少認(rèn)為允許搜索爬蟲(chóng)程序進(jìn)入其網(wǎng)站具有某種價(jià)值。然而,在 AI 時(shí)代中,出版商更積極地阻止爬蟲(chóng)程序進(jìn)入其網(wǎng)站,因?yàn)闀簳r(shí)沒(méi)有將其數(shù)據(jù)交給 AI 公司的好處。許多媒體公司目前正在與 AI 公司就以費(fèi)用向其授權(quán)數(shù)據(jù)進(jìn)行談判,但這些談判還處于早期階段。

在過(guò)去 20 年中被 Google 拿走了一些東西的媒體機(jī)構(gòu)對(duì) OpenAI 等快速商業(yè)化的 AI 服務(wù)持?jǐn)骋夂汀肝覀儾粫?huì)再上當(dāng)」的態(tài)度。據(jù) The Information 報(bào)道,OpenAI 預(yù)計(jì)在未來(lái)一年內(nèi)將帶來(lái)超過(guò) 10 億美元的收入。

新聞媒體公司正在努力找到平衡點(diǎn),在接受和抵制人工智能之間掙扎。一方面,該行業(yè)迫切需要尋找創(chuàng)新方法來(lái)提高勞動(dòng)密集型業(yè)務(wù)的利潤(rùn)率。

另一方面,在人們對(duì)新聞媒體公司的信任度處于歷史低點(diǎn)之際,將人工智能引入新聞編輯室的工作流程,會(huì)帶來(lái)具有挑戰(zhàn)性的道德問(wèn)題。

而如果太多的網(wǎng)絡(luò)阻礙人工智能爬蟲(chóng),它們的所有者可能會(huì)發(fā)現(xiàn)更難改進(jìn)和更新他們的人工智能產(chǎn)品——而且好的數(shù)據(jù)也變得越來(lái)越難找到。

Originality.AI 的發(fā)現(xiàn)顯示,前 1000 個(gè)網(wǎng)站中 GPTBot 的屏蔽率每周增加約 5%

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開(kāi)。 必填項(xiàng)已用 * 標(biāo)注