LG 推出 Captioning AI 的生成式 AI 服務(wù):像人類一樣為圖像生成描述和關(guān)鍵字
站長(zhǎng)之家(ChinaZ.com) 6月20日消息:LG 發(fā)布了一款名為 Captioning AI 的生成式 AI 服務(wù),該服務(wù)可以識(shí)別圖像中的元素并生成描述和關(guān)鍵詞,引發(fā)了對(duì)這家韓國(guó)企業(yè)如何影響市場(chǎng)的期望,因?yàn)樯墒?AI 服務(wù)(如 ChatGPT)正在推動(dòng)變革。
LG AI 研究部門在周日(當(dāng)?shù)貢r(shí)間)在加拿大溫哥華舉行的全球最大計(jì)算機(jī)視覺會(huì)議「計(jì)算機(jī)視覺與模式識(shí)別 2023」上發(fā)布了 Captioning AI 服務(wù)。
LG 表示,該服務(wù)基于 LG AI 研究部門的 Zero-shot Image Captioning 技術(shù),這是一種使 AI 能夠通過先前的經(jīng)驗(yàn)和知識(shí)理解和描述它第一次看到的對(duì)象或場(chǎng)景的技術(shù),就像人類一樣。
該公司解釋說,Captioning AI 與 Midjourney 等 AI 服務(wù)不同,后者需要用戶輸入文本或插入圖像文件,然后 AI 繪制圖片。
LG 公司的一位發(fā)言人表示:「字幕看起來很簡(jiǎn)單,因?yàn)檫@是一個(gè)古老的概念,但將生成式 AI 技術(shù)應(yīng)用于字幕的想法是,AI 具有對(duì)其以前沒有見過的圖像進(jìn)行推理的視覺智能。例如,它可以觀察圖像中的風(fēng)景或人物,并推斷出位置。」
研究人員表示,Captioning AI 可以在不到兩天的時(shí)間內(nèi)為 1 萬張圖像生成文本描述和關(guān)鍵詞,這可以提高需要管理大量圖像的公司的工作效率和生產(chǎn)力。
該服務(wù)是通過與 Shutterstock 的合作實(shí)現(xiàn)的,Shutterstock 是包括圖像和視頻在內(nèi)的全球最大的視覺內(nèi)容平臺(tái)。LG AI 研究與這家總部位于美國(guó)的公司合作,后者在圖像捕捉方面擁有豐富的專業(yè)知識(shí)。
雙方還在確保版權(quán)透明性和驗(yàn)證 AI 倫理方面進(jìn)行了合作,例如 AI 在學(xué)習(xí)圖像時(shí)是否以有偏見的方式收集數(shù)據(jù)等問題。
LG AI 研究的 Vision Lab 負(fù)責(zé)人 Kim Seung-hwan 表示:「為了在圖像捕捉領(lǐng)域確立全球研究領(lǐng)導(dǎo)地位,我們計(jì)劃通過與各種合作伙伴建立有機(jī)合作關(guān)系,持續(xù)開發(fā)新的度量標(biāo)準(zhǔn)并研究新技術(shù)。」
在會(huì)議期間,LG 集團(tuán)旗下的子公司,如 LG AI 研究、LG 電子、LG Innotek、LG Energy Solution 和 LG UPlus,舉辦了 LG AI Day,這是一次針對(duì)研究生的招聘活動(dòng)。