AI開卷視頻:一句話一張圖就能出大片,“人均諾蘭”時代不遠了
聲明:本文來自于微信公眾號硅星人Pro(ID:gh_c0bb185caa8d),文| Nikki編輯| VickyXiao,授權微新創想轉載發布。
當我們還在討論ChatGPT和AI繪畫時,AIGC的圈子里又刷新了一些新玩法。
只見大叔打個響指,搖身一變成貴族,穿越到了17、18世界的歐洲宮廷。
隨后,又一個響指,變成了「星球崛起」里的主角,在殘垣斷壁的戰場上穿梭。
這還不算最神奇的,緊接著一個轉場,打響指的人物從老爺子變成了健美女性。
這個爆款視頻正是通過AI初創公司Runway制作而成的,他們的AI視頻生成產品Gen-1和Gen-2已全面開放,任何人都可以注冊一個賬號免費嘗試。目前網站上可試用功能比較多,其中應用最多的是:文字+圖像生成視頻(Text + Image to Video)、圖像生成視頻(Image to Video),升級版效果比之前更好。
于是很多網友探索出了用Midjourney生成圖像,然后用Gen-2把圖像轉化為視頻的玩法。
甚至在此基礎上,還能融合連貫的劇情和統一的藝術風格,再對視頻畫面進行一定編輯,一個電影預告片就誕生了,讓我們一起來看看用Gen-2整活,究竟可以出多少腦洞?這些視頻創意又是如何生成的?又有哪些技術原理呢?
01令人驚嘆的《創世紀》電影預告片
由 Nicolas Neubert創作的《創世紀》電影預告片的視覺震撼力吸引了許多人,據了解,這是作者使用Midjourney和Runway制作出來的。再將其進行剪輯優化,最終成為一條專業的預告片。
很多人在推特上詢問Neubert的制作步驟,他后續也在推文中詳細介紹了靈感來源和創作過程。首先他是從配樂開始構思整個故事,然后再剪輯時將視覺效果與音樂節拍進行匹配。
對于具體的故事情節,他想一步步增強緊張感,所以分成了3個部分來完成:背景介紹、制作沖突、引入高潮。
第一步就是起草文案,將“Sharing everything, living with the consequences, and then calling humanity up for action”作為主題,通過這個主題來定后面的整體基調和聲音,然后就可以圍繞這些主題去生成場景,在閱讀觀看大量關于軍事科技、戰斗主題的科幻剪輯后,最后確認了故事線,為了使影片看起來更加有深度,他還添加了三個帶有發光護身符孩子的鏡頭,提高故事深度。
第二步是用Midjourney生成一致的圖像。為了最大限度地保持一致性,他擬了一個提示詞模板,可以在預告片的每個鏡頭中重復使用。
“Cinematic Shot, Crystal Object in the middle of circular room, star wars warfare, earthy naturalism, teal and yellow, frostpunk, interior scenes, cinestill50d –ar21:9—style raw”
“電影鏡頭,圓形房間中間的水晶物體,星球大戰戰爭,樸實的自然主義,青色和黃色,霜朋克,室內場景,cinestill50d –ar21:9—風格原始”
closeup shot of raising a blade, detailed face, star wars warfare, cinematic contour lighting, in the style of detailed crowd scenes, earthy naturalism, teal and yellow, frostpunk, interior scenes, cinestill50d –ar21:9—style raw
Huge laser cannon beam, star wars warfare, cinematic contour lighting, in the style of detailed crowd scenes, earthy naturalism, teal and yellow, frostpunk, interior scenes, cinestill50d –ar21:9—style raw
Humans attached to computer by wired, detailed face, star wars warfare, cinematic contour lighting, in the style of detailed crowd scenes, earthy naturalism, teal and yellow, frostpunk, interior scenes, cinestill50d –ar21:9—style raw
使用 "Strong Variations "功能也很有幫助。這使得創建多樣化場景變得容易,同時還能保持前一個變體的色調。女戰士的場景可以轉變為普通市民、網絡黑客或戰斗場景,而無需生成新的提示。
第三步是用Runway生成動畫。勾選“Upscaled”可以提升畫質(這個選項需要付費使用),但可能面部處理得不好,所以他通常使用標準質量,基本都是用圖像直接生成一個個視頻鏡頭。
第四步是在CapCut(免費軟件)上進行后期剪輯。他將生成的鏡頭卡著音樂節奏拖入時間軸,慢慢拼湊出完整的故事。同時還要對2-3個剪輯包進行顏色匹配,使得它們看起來更像一個電影場景。
最終,他花費了大約7個小時完成這部預告片,其中在Midjourney輸入了316個提示詞,放大了128個圖像,在Runway生成了310個視頻片段,預告片使用了44個片段,相當于每分鐘的制作成本是125美元。
02火爆外網的AI影片「芭本海默」
最近在外網有個詞特別火:「芭本海默」(Barbenheimer),是由網友用AI生成的《芭比》和《奧本海默》拼接而成的電影預告片——《Barbenheimer》(芭本海默)在網絡上廣泛傳播。
視頻作者表示此預告片由Midjourney和Runway的Gen-2合成,配音也是由AI生成的瑪格特·羅比和馬特·達蒙的聲音。更令人驚訝的是,整個制作過程他只花了4天!
萬萬沒想的是這些超燃超真實的預告片畫面竟然都是用AI生成的,這些預告片中的畫面皆是由Midjourney生成,然后再通過Runway的Gen-2來實現讓畫面動起來的視覺效果。
而此次爆炸性效果讓更多人嘗試用Midjourney和Gen-2混搭,也二創出了超多優秀作品。由于Gen-2生成的視頻時長比較短,甚至還有網友找到了Gen-2輸出更長時間視頻的方法,就是用Midjourney生成的圖像作為初始圖像,然后使用Gen-2輸出的最后一幀作為下一張的圖像提示。
03AI視頻打破次元壁,讓梗圖動起來
之前也有一些工具能夠給圖像添加動效,但都只是讓圖像的某些部分動起來,例如讓老照片說話,前段時間DragGan的技術再現,都是通過對圖像的部分進行移動,而此次Runway可以做到讓AI來根據圖像內容想象動態場景,其創意腦洞可以說是無限的。
許多網友也進行了二次創作,把一些搞笑梗圖融合起來,就是一部電影故事。例如這位網友用Midjourney和Gen-2生成了一個電影短片,讓美國知名政治人物、企業家齊上陣,出演由惡魔偽裝的人類。
我們可以在片中看到許多熟悉的面孔:特朗普、拜登、希拉里、馬斯克、扎克伯格……他們似乎在共同密謀著什么邪惡計劃。
借助AI,人們可以發揮想象,創造出原本現實中不存在的人物動作和故事情節。除了電影和整活視頻之外,還有人利用ChatGPT寫腳本,Midjourney生成圖像,Runway Gen-2生成視頻,然后再通過剪輯組合,就是一個高質量的廣告片。
04視頻生成技術發展的關鍵階段
看到這里,你肯定要感嘆AI視頻的技術已經這么成熟了,甚至讓好萊塢電影制作方都要開始擔憂了。但其實目前Runway的視頻生成還是不能一步到位,無法生成更長片段的視頻,并且人物面部、動作變形問題等還是不太可控。如果真的要制作一個完整的電影或者廣告片,你可能要花費更多的時間去不短嘗試使用它。
視頻生成的技術發展至今,其實大致可以分為圖像拼接生成、GAN/VAE/Flow-based生成、自回歸和擴散模型生成幾個關鍵階段。隨著深度學習的發展,視頻生成無論在畫質、長度、連貫性等方面都有了很大提升。但由于視頻數據的復雜性高,相較于語言生成和圖像生成,視頻生成技術當前仍處于探索期,各類算法和模型都存在一定的局限性。
Runway就是使用的主流模型Gen,Gen模型通過潛在擴散模型學習文本-圖像特征,可以根據給定的文本提示或參考圖像生成新的視頻,或根據原始視頻+驅動圖像進行視頻風格轉換等多種任務。模型在視頻渲染和風格轉換方面具有較好的表現,生成的視頻藝術性和圖像結構保持能力較強,因此可以更好地適應模型定制要求,但Gen模型在生成結果的穩定性方面仍然存在局限,還需要技術去不斷探索精進,按現如今AI技術的發展,相信這些局限性在不久的將來就能解決。
除了Runway,市面上還有一些支持文字生成視頻、圖片生成視頻的工具,比如ZeroScope、PikaLab、Kaiber等,以目前AI視頻的處理效果來看,是否能達到商業應用要求,還有待考究。
你對AI視頻技術怎么看?歡迎在評論處留言與我們互動。