央視聯(lián)合上海人工智能實驗室發(fā)布央視聽媒體大模型CMG Media GPT
微新創(chuàng)想(idea2003.com)7月24日 消息:7月20日,上海人工智能實驗室(上海AI實驗室)、中央廣播電視總臺聯(lián)合發(fā)布“央視聽媒體大模型”(CMG Media GPT)。
目前,央視聽大模型具備了強大的視頻理解能力和視聽媒體問答能力,同時,央視聽大模型可根據(jù)提供的視頻創(chuàng)作文字——從主持詞到新聞稿件,甚至詩歌。媒體編輯可在大模型的協(xié)助下,一鍵為視頻生成風(fēng)格各異的解說詞,當前生成內(nèi)容已覆蓋美食、文化和科技等多個領(lǐng)域。
央視聽大模型還為用戶提供了強大的交互式圖像、視頻編輯與創(chuàng)作能力,用戶僅需使用簡單的光標和文字指令,即可快速修改或編輯圖像。
上海AI實驗室科研團隊介紹,央視聽大模型具備的視覺理解能力,源于跨模態(tài)互動技術(shù)的最新突破——大模型將圖像/視頻視為另一種“語言”,并將視覺與語言對齊,從而降低人工智能視覺任務(wù)的門檻。基于對多模態(tài)數(shù)據(jù)的建模,央視聽大模型可感知圖像的風(fēng)格與紋理筆觸,通過將用戶輸入的文本指令與圖像對齊,實現(xiàn)按照用戶需求生成畫面及風(fēng)格一致的其他內(nèi)容。
除了視頻內(nèi)容,央視聽大模型還具備快速生成“數(shù)字人主播”的能力。使用較短的真人采集視頻即可生成對應(yīng)的數(shù)字人。AI生成的數(shù)字人主播以“真人”形象呈現(xiàn),不僅能根據(jù)既定文案和背景場景快速生成播報視頻,還可自動學(xué)習(xí)真人的語言及動作習(xí)慣,做到形象更逼真,表情更自然。