比Meta「分割一切AI」更早實(shí)現(xiàn)交互式開集分割!港科大開放詞表分割大法入選ICCV 2023
聲明:本文來自于微信公眾號(hào) 量子位 (ID:QbitAI),作者張浩 ,授權(quán)微新創(chuàng)想轉(zhuǎn)載發(fā)布。
ICCV論文收錄名單近日「開獎(jiǎng)」,其中就包括這個(gè)港科大一作的圖像分割模型!
它能以更低的訓(xùn)練成本實(shí)現(xiàn)更好的效果,哪怕遇到未知物體也能迎刃而解。
此外據(jù)作者介紹,它還是第一個(gè)擁有基于box prompts的分割能力的AI模型,比Meta的SAM還要早實(shí)現(xiàn)。
這篇論文第一版預(yù)印本的發(fā)布時(shí)間是今年的3月14日(北京時(shí)間15日),比SAM早了20多天。
那么,這個(gè)圖像分割模型,究竟效果如何,又是如何做到的呢?
(以下內(nèi)容由投稿者提供)
下圖展示了這個(gè)名為OpenSeeD的模型的輸出效果:
它既可以做經(jīng)典的實(shí)例、語義以及全景分割,又可以分割出從未見過的物體類別,還可以基于檢測(cè)框分割出從未見過的物體并給出正確的類別。
工作原理
OpenSeeD是一個(gè)簡單而有效的開放詞表圖像分割的框架,也可以理解為MaskDINO擴(kuò)展到開放詞表的版本。
如下圖所示,過去已經(jīng)有不少工作結(jié)合大量的圖像文本對(duì)實(shí)現(xiàn)開詞表檢測(cè)或者分割,而OpenSeeD是第一個(gè)把物體檢測(cè)數(shù)據(jù)和全景分割數(shù)據(jù)結(jié)合在一起聯(lián)合訓(xùn)練的工作,并且證明是可行有效的,填補(bǔ)了這一領(lǐng)域的空白。
除此以外,為了擴(kuò)展語義的豐富程度,研究團(tuán)隊(duì)引入O365(365類)檢測(cè)數(shù)據(jù)和COCO分割(133類)一起訓(xùn)練(不同于MaskDINO使用O365預(yù)訓(xùn)練)。
由于使用了不同的數(shù)據(jù)集,研究團(tuán)隊(duì)需要解決了二者之間的數(shù)據(jù)和任務(wù)的差異,以便兩個(gè)任務(wù)和詞表兼容。
整體上,OpenSeeD的工作原理如下圖所示,兩種差異也是通過這一方式解決的:
圖中左半部分完成的是通用場(chǎng)景分割。
為了解決基礎(chǔ)模型的任務(wù)差別(O365只有前景,而COCO有前景和背景),研究團(tuán)隊(duì)把前景和背景的預(yù)測(cè)進(jìn)行解耦。
右半部分是條件預(yù)測(cè)部分,可以通過GT box預(yù)測(cè)圖像遮罩。
在這一部分中,團(tuán)隊(duì)通過為O365打標(biāo)簽為了解決數(shù)據(jù)差異問題。
最終,該團(tuán)隊(duì)的方法在多個(gè)開放詞表任務(wù)上取得了與當(dāng)前最佳方法x-decoder相當(dāng)甚至更好的效果,相比x-decoder用了4M人工標(biāo)注的圖像描述數(shù)據(jù),OpenSeeD只用了0.57M的檢測(cè)數(shù)據(jù)。
另外,研究團(tuán)隊(duì)還發(fā)現(xiàn),即使只用5k的O365數(shù)據(jù),也可以在開放詞表任務(wù)上達(dá)到類似的效果。
這說明OpenSeeD需要的是豐富的視覺概念(種類數(shù)),而不一定是很大的數(shù)據(jù)量(個(gè)體數(shù))。
低成本,高效果
OpenSeeD作為一個(gè)強(qiáng)大的開集分割方法,可以分割出大量從未見過的物體,在各項(xiàng)開集和閉集指標(biāo)上都取得了最佳成績。
而且通過引入O365檢測(cè)任務(wù)來提升開集語義能力,OpenSeeD的訓(xùn)練成本也相對(duì)其他開集方法更低。
下表展示了OpenSeeD的測(cè)試結(jié)果:
通過較少的檢測(cè)數(shù)據(jù),研究團(tuán)隊(duì)發(fā)現(xiàn)在多個(gè)零訓(xùn)練樣本分割任務(wù)上達(dá)到或超越了現(xiàn)有最佳方法X-Decoder,GLIPv2等,尤其在SeginW任務(wù)(大量陌生類別)上取得了遠(yuǎn)超X-Decoder的效果。
除此以外,當(dāng)團(tuán)隊(duì)微調(diào)到其他數(shù)據(jù)集時(shí),OpenSeeD都表現(xiàn)出了遠(yuǎn)超參照標(biāo)準(zhǔn)的性能。
在COCO和ADE20K的全景分割以及ADE20K和Cityscapes的實(shí)例分割上,OpenSeeD的性能也與現(xiàn)有最佳模型相當(dāng)。
論文地址:
https://arxiv.org/abs/2303.08131