人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團(tuán)隊開發(fā)多模態(tài)大模型Ferret 成功突破谷歌人機(jī)驗證碼難題

要點:

1. 蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)研究團(tuán)隊合作開發(fā)的多模態(tài)大模型“雪貂”(Ferret)能夠在圖像中準(zhǔn)確找到交通信號燈,比GPT-4V表現(xiàn)更出色,提高了大模型在“看說答”任務(wù)中的精確度。

2. Ferret的關(guān)鍵創(chuàng)新在于將引用(referring)和定位(grounding)兩方面的空間理解能力緊密結(jié)合,使模型能夠同時理解給定區(qū)域的語義和找到對應(yīng)目標(biāo)。

3. Ferret采用混合區(qū)域表示方法,結(jié)合了離散坐標(biāo)和連續(xù)特征,可以接受多樣化的區(qū)域輸入,如點、邊界框和自由形狀,并生成每個定位對象的坐標(biāo),這一方法在多任務(wù)評估中表現(xiàn)出色。

微新創(chuàng)想(idea2003.com)10月12日 消息:蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)合作研發(fā)的多模態(tài)大模型“雪貂”(Ferret)已經(jīng)成功突破了谷歌人機(jī)驗證碼的難題,能夠輕松識別圖像中的交通信號燈并準(zhǔn)確圈出其位置,其性能直逼GPT-4V。

Ferret的關(guān)鍵在于改進(jìn)了大模型在“看說答”任務(wù)中的精確度,這得益于其出色的圖文關(guān)聯(lián)能力。

項目地址:https://github.com/apple/ml-ferret

論文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心創(chuàng)新在于將引用和定位的兩方面空間理解能力更緊密地結(jié)合在一起。引用指模型能夠準(zhǔn)確理解給定區(qū)域的語義,而定位則要求模型在圖像中找到對應(yīng)目標(biāo)。

傳統(tǒng)的多模態(tài)大模型通常只能單獨使用引用和定位,但Ferret提出了一種新型的混合區(qū)域表示方法,使模型能夠同時理解語義并找到目標(biāo)。

這一方法使用混合區(qū)域表示,結(jié)合了離散坐標(biāo)和連續(xù)特征。模型可以接受多樣化的區(qū)域輸入,包括點、邊界框和自由形狀,并能生成每個定位對象的坐標(biāo)。

這一獨特的方法使Ferret在多任務(wù)評估中表現(xiàn)出色,包括圖像局部區(qū)域的引用/定位、語義、知識和推理能力。特別是在需要指代和視覺grounding的新任務(wù)上,F(xiàn)erret表現(xiàn)卓越,提高了描述圖像細(xì)節(jié)的準(zhǔn)確性,減少了模型的幻覺。

最令人驕傲的是,F(xiàn)erret是由一支全華人團(tuán)隊開發(fā)的,包括蘋果AI/ML團(tuán)隊和哥倫比亞大學(xué)的研究團(tuán)隊。這一成就突顯了中國在多模態(tài)大模型領(lǐng)域的卓越研究實力。通過這一研究,F(xiàn)erret為解決圖像理解和多模態(tài)任務(wù)提供了新的方向,有望在人機(jī)交互、智能搜索等領(lǐng)域取得顯著的突破。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會被公開。 必填項已用 * 標(biāo)注