FC-CLIP徹底改變全景分割:統一的單級AI 框架
要點:
1、全景分割將語義分割和實例分割相結合,對圖像進行精細分割標注,但受限于數據集標注成本。
2、FC-CLIP通過凍結卷積CLIPbackbone實現掩碼生成和CLIP文本對齊分類的單階段統一,突破閉詞匯限制。
3、FC-CLIP設計簡單高效,參數和計算量都大大減少,性能顯著提升,可擴展到開放詞匯場景。
微新創想(idea2003.com)9月27日 消息:全景分割是將圖像分割成有意義的部分或區域的基礎計算機視覺任務,對各種應用如醫學圖像分析和自動駕駛具有關鍵作用。全景分割將語義分割的對每個像素進行對象分類,和實例分割的對同類不同實例進行區分相結合,目標是為每個實例生成不重疊的掩碼并賦予類別標簽。
多年來,研究者不斷提升全景分割模型性能,重點關注全景質量指標。但是基于閉詞匯的限制嚴重制約了這些模型的實際應用,因為數據集細顆粒度標注的高成本限制了語義類別數目。這成為全景分割應用的關鍵難題。
項目地址:https://github.com/bytedance/fc-clip
計算機視覺社區探索開放詞匯分割來克服閉詞匯的限制。這種范式利用單詞的文本嵌入作為類別標簽嵌入,大大增強了模型處理更廣泛類別的能力。CLIP等多模態預訓練模型利用其從海量互聯網數據中學習對齊圖像文本特征表示的能力,在開放詞匯分割中顯示出巨大潛力。
近期的兩階段方法如SimBaseline和OVSeg改編了CLIP進行開放詞匯分割,但固有的低效和分割與分類不一致的問題仍然存在。提出單階段統一框架FC-CLIP正是為解決這一關鍵問題。
FC-CLIP在共享的凍結卷積CLIP backbone上無縫集成了掩碼生成和CLIP分類。這種設計基于以下核心思路:
凍結的CLIP backbone保留了預訓練的圖像文本對齊,支持開放詞匯分類。
添加輕量級解碼器后,CLIP backbone可作為強大的掩碼生成器。
卷積CLIP在輸入尺寸放大時泛化能力提升,適合密集預測任務。
單一凍結卷積CLIP backbone帶來極簡但高效的設計。相較先前方法,FC-CLIP參數和計算量大幅減少,訓練時間也更短,實用性強。在多個數據集上,FC-CLIP都顯著提升了狀態轉換水平。
FC-CLIP開創性的單階段框架統一了掩碼生成和文本匹配分類,具有巨大的潛力推動全景分割向開放詞匯場景擴展,實現真正的圖像理解和交互。這項突破性工作為端到端的單階段全景分割方法提供了范例,值得進一步改進和擴展。