人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團(tuán)隊開發(fā)多模態(tài)大模型Ferret 成功突破谷歌人機(jī)驗證碼難題

由微新創(chuàng)想 · 2023年 10月 13日

要點:

1. 蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)研究團(tuán)隊合作開發(fā)的多模態(tài)大模型“雪貂”（Ferret）能夠在圖像中準(zhǔn)確找到交通信號燈，比GPT-4V表現(xiàn)更出色，提高了大模型在“看說答”任務(wù)中的精確度。

2. Ferret的關(guān)鍵創(chuàng)新在于將引用（referring）和定位(grounding)兩方面的空間理解能力緊密結(jié)合，使模型能夠同時理解給定區(qū)域的語義和找到對應(yīng)目標(biāo)。

3. Ferret采用混合區(qū)域表示方法，結(jié)合了離散坐標(biāo)和連續(xù)特征，可以接受多樣化的區(qū)域輸入，如點、邊界框和自由形狀，并生成每個定位對象的坐標(biāo)，這一方法在多任務(wù)評估中表現(xiàn)出色。

微新創(chuàng)想（idea2003.com）10月12日消息:蘋果AI/ML團(tuán)隊與哥倫比亞大學(xué)合作研發(fā)的多模態(tài)大模型“雪貂”（Ferret）已經(jīng)成功突破了谷歌人機(jī)驗證碼的難題，能夠輕松識別圖像中的交通信號燈并準(zhǔn)確圈出其位置，其性能直逼GPT-4V。

Ferret的關(guān)鍵在于改進(jìn)了大模型在“看說答”任務(wù)中的精確度，這得益于其出色的圖文關(guān)聯(lián)能力。

項目地址:https://github.com/apple/ml-ferret

論文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心創(chuàng)新在于將引用和定位的兩方面空間理解能力更緊密地結(jié)合在一起。引用指模型能夠準(zhǔn)確理解給定區(qū)域的語義，而定位則要求模型在圖像中找到對應(yīng)目標(biāo)。

傳統(tǒng)的多模態(tài)大模型通常只能單獨使用引用和定位，但Ferret提出了一種新型的混合區(qū)域表示方法，使模型能夠同時理解語義并找到目標(biāo)。

這一方法使用混合區(qū)域表示，結(jié)合了離散坐標(biāo)和連續(xù)特征。模型可以接受多樣化的區(qū)域輸入，包括點、邊界框和自由形狀，并能生成每個定位對象的坐標(biāo)。

這一獨特的方法使Ferret在多任務(wù)評估中表現(xiàn)出色，包括圖像局部區(qū)域的引用/定位、語義、知識和推理能力。特別是在需要指代和視覺grounding的新任務(wù)上，F(xiàn)erret表現(xiàn)卓越，提高了描述圖像細(xì)節(jié)的準(zhǔn)確性，減少了模型的幻覺。

最令人驕傲的是，F(xiàn)erret是由一支全華人團(tuán)隊開發(fā)的，包括蘋果AI/ML團(tuán)隊和哥倫比亞大學(xué)的研究團(tuán)隊。這一成就突顯了中國在多模態(tài)大模型領(lǐng)域的卓越研究實力。通過這一研究，F(xiàn)erret為解決圖像理解和多模態(tài)任務(wù)提供了新的方向，有望在人機(jī)交互、智能搜索等領(lǐng)域取得顯著的突破。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團(tuán)隊開發(fā)多模態(tài)大模型Ferret 成功突破谷歌人機(jī)驗證碼難題

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團(tuán)隊開發(fā)多模態(tài)大模型Ferret 成功突破谷歌人機(jī)驗證碼難題

您可能還喜歡...

蘋果占優(yōu)勢的平板電腦行業(yè)，安卓殺出了一條血路

拾柒Ai助手：國內(nèi)可用的AI繪畫、寫作平臺

啟明創(chuàng)投攜手未盡研究，重磅發(fā)布報告《生成式AI》?| The State of Generative AI 2023

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章