港科大版圖像分割A(yù)I“Semantic-SAM”來了 比Meta「分割一切AI」更全能
站長之家(ChinaZ.com)7月17日 消息:香港科技大學(xué)團(tuán)隊開發(fā)出一款名為 Semantic-SAM 的圖像分割 AI 模型,相比 Meta 的 SAM 模型,Semantic-SAM 具有更強(qiáng)的粒度和語義功能。該模型能夠在不同粒度級別上分割和識別物體,并為分割出的實體提供語義標(biāo)簽。
研究團(tuán)隊通過聯(lián)合訓(xùn)練 SA-1B 數(shù)據(jù)集、通用分割數(shù)據(jù)集和部件分割數(shù)據(jù)集,實現(xiàn)了多粒度分割任務(wù)和交互分割任務(wù)的優(yōu)化。Semantic-SAM 基于 Mask DINO 框架進(jìn)行開發(fā),其模型結(jié)構(gòu)主要改進(jìn)在 decoder 部分,同時支持通用分割和交互式分割。
模型的訓(xùn)練過程中,采用解耦的物體分類和部件分類方法,以學(xué)習(xí)物體和部件的語義信息。實驗結(jié)果表明,Semantic-SAM 在分割質(zhì)量和粒度可控性方面優(yōu)于 SAM 模型。總之,Semantic-SAM 是一款全面且強(qiáng)大的圖像分割 AI 模型。
論文地址:https://arxiv.org/abs/2307.04767
代碼地址:https://github.com/UX-Decoder/Semantic-SAM