蘋果AI/ML團(tuán)隊開發(fā)多模態(tài)大模型Ferret 成功突破谷歌人機(jī)驗證碼難題
要點:
1. 蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)研究團(tuán)隊合作開發(fā)的多模態(tài)大模型“雪貂”(Ferret)能夠在圖像中準(zhǔn)確找到交通信號燈,比GPT-4V表現(xiàn)更出色,提高了大模型在“看說答”任務(wù)中的精確度。
2. Ferret的關(guān)鍵創(chuàng)新在于將引用(referring)和定位(grounding)兩方面的空間理解能力緊密結(jié)合,使模型能夠同時理解給定區(qū)域的語義和找到對應(yīng)目標(biāo)。
3. Ferret采用混合區(qū)域表示方法,結(jié)合了離散坐標(biāo)和連續(xù)特征,可以接受多樣化的區(qū)域輸入,如點、邊界框和自由形狀,并生成每個定位對象的坐標(biāo),這一方法在多任務(wù)評估中表現(xiàn)出色。
微新創(chuàng)想(idea2003.com)10月12日 消息:蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)合作研發(fā)的多模態(tài)大模型“雪貂”(Ferret)已經(jīng)成功突破了谷歌人機(jī)驗證碼的難題,能夠輕松識別圖像中的交通信號燈并準(zhǔn)確圈出其位置,其性能直逼GPT-4V。
Ferret的關(guān)鍵在于改進(jìn)了大模型在“看說答”任務(wù)中的精確度,這得益于其出色的圖文關(guān)聯(lián)能力。
項目地址:https://github.com/apple/ml-ferret
論文地址:https://arxiv.org/pdf/2310.07704.pdf
Ferret的核心創(chuàng)新在于將引用和定位的兩方面空間理解能力更緊密地結(jié)合在一起。引用指模型能夠準(zhǔn)確理解給定區(qū)域的語義,而定位則要求模型在圖像中找到對應(yīng)目標(biāo)。
傳統(tǒng)的多模態(tài)大模型通常只能單獨使用引用和定位,但Ferret提出了一種新型的混合區(qū)域表示方法,使模型能夠同時理解語義并找到目標(biāo)。
這一方法使用混合區(qū)域表示,結(jié)合了離散坐標(biāo)和連續(xù)特征。模型可以接受多樣化的區(qū)域輸入,包括點、邊界框和自由形狀,并能生成每個定位對象的坐標(biāo)。
這一獨特的方法使Ferret在多任務(wù)評估中表現(xiàn)出色,包括圖像局部區(qū)域的引用/定位、語義、知識和推理能力。特別是在需要指代和視覺grounding的新任務(wù)上,F(xiàn)erret表現(xiàn)卓越,提高了描述圖像細(xì)節(jié)的準(zhǔn)確性,減少了模型的幻覺。
最令人驕傲的是,F(xiàn)erret是由一支全華人團(tuán)隊開發(fā)的,包括蘋果AI/ML團(tuán)隊和哥倫比亞大學(xué)的研究團(tuán)隊。這一成就突顯了中國在多模態(tài)大模型領(lǐng)域的卓越研究實力。通過這一研究,F(xiàn)erret為解決圖像理解和多模態(tài)任務(wù)提供了新的方向,有望在人機(jī)交互、智能搜索等領(lǐng)域取得顯著的突破。