vivo手機(jī)影像的未來方向,要靠生成式AI和3D模型了
時(shí)間進(jìn)入 2023 年,盡管智能手機(jī)市場還在持續(xù)疲軟,但手機(jī)廠商在產(chǎn)品競爭絲毫沒有放緩,甚至在影像上還有增無減。更大面積的傳感器、光學(xué)防抖、全焦段覆蓋,高端智能手機(jī)的影像配置基本都上了一個(gè)臺階。
不過一方面,硬件上的提升容易帶來同質(zhì)化的競爭,很難拉開體驗(yàn)上的差異。另一方面,更豪華的硬件規(guī)格,也會影響到機(jī)身重量和內(nèi)部空間設(shè)計(jì),就比如小米 13 Ultra,在影像上確實(shí)帶來了相當(dāng)驚艷的體驗(yàn),但同時(shí),機(jī)身重量的增加和碩大的相機(jī)模組,都極大影響到了日常的手持體驗(yàn)。
所以在軟件與算法等其他層面加大投入,幾乎就成為了手機(jī)廠商一種的共識。但問題在于往什么方向做?又怎么做?
在 7 月底舉辦的 2023 vivo 影像盛典特別活動上,vivo 影像產(chǎn)品高級總監(jiān)李卓表示,手機(jī)影像技術(shù)目前是三個(gè)領(lǐng)域同時(shí)走路:光學(xué)、算力、算法。
2023 vivo 影像盛典特別活動,圖/vivo
具體到當(dāng)前的技術(shù)背景下,光學(xué)到了一定瓶頸之后,突破起來難度非常大,可能需要材料學(xué)和基礎(chǔ)物理的突破才行。但與此相對,一旦突破光學(xué)瓶頸就會帶來全新的世界。二九目前,算力和算法帶來的進(jìn)步和突破則是非常明顯。
從光學(xué)到算法,vivo 一個(gè)都不想放過。
在 3D 模型里沉淀算法,在手機(jī)上應(yīng)用算法
不久前,雷科技受邀參觀了位于 vivo 重慶智能制造中心內(nèi)的 3D 影像實(shí)驗(yàn)室。在 vivo 3D 影像實(shí)驗(yàn)室,可以看到由 175 臺單反相機(jī),配合閃光燈、處理器、控制器和服務(wù)器組成的 3D 影像系統(tǒng)。
采集人體信息時(shí),vivo 3D 影像實(shí)驗(yàn)室會同時(shí)調(diào)動 174 臺單反相機(jī)從不同的角度進(jìn)行拍攝,生成 100 余張 2D 圖片(另外 1 臺負(fù)責(zé)控制),隨后通過局域網(wǎng)上傳至存儲服務(wù)器,再通過一連串的計(jì)算處理,最終生成一個(gè) 3D 模型。
vivo 3D 影像實(shí)驗(yàn)室內(nèi),圖/雷科技
vivo 在現(xiàn)場展示了整個(gè)流程以及生成的 3D 模型。盡管與實(shí)際「拍攝」的媒體老師還有明顯的區(qū)別,但模型的精細(xì)程度也足以讓在場觀眾感到些許驚艷。不過,這種方式顯然不可能復(fù)制到智能手機(jī)上。vivo 也明白這一點(diǎn)。
實(shí)際上,vivo 的目的在于通過 3D 模型采集大量且精準(zhǔn)的人體軀干與面部信息,不斷優(yōu)化算法,最終實(shí)現(xiàn)對智能手機(jī)影像的提高。
眾所周知,傳統(tǒng)的智能手機(jī)人像虛化算法,往往是在 2D 層面判斷人的輪廓來實(shí)現(xiàn)虛化,不具備 3D 層面的深度信息,因此主體與背景之間的過渡往往比較生硬,背景也會缺少層次。
vivo 希望能通過大量的 3D 模型進(jìn)行預(yù)訓(xùn)練,讓 vivo 的算法變得更加智能,讓手機(jī)可以更好地判斷人體的深度信息,使得人像虛化更加細(xì)膩與自然。
vivo X90 Pro+ 拍攝的人像照片,圖/雷科技
此外,3D 模型的加入也讓手機(jī)人像虛化算法應(yīng)用范圍可以進(jìn)一步擴(kuò)大。目前人像虛化算法由于缺乏深度方向的信息,只能拍攝全身像或是半身像,未來則可能拍攝眼睛的特寫虛化畫面。
而在 3D 模型之外,vivo 3D 影像實(shí)驗(yàn)室內(nèi)還有一套「重打光」系統(tǒng)——由 96 個(gè)可編程的同步光源搭配工業(yè)相機(jī),工作站以及服務(wù)器共同組成。這套系統(tǒng)可以模擬不同光照條件下的成像圖片,為自研人像算法做數(shù)據(jù)支撐,提升手機(jī)上的算法效果。
3D 模型計(jì)算處理過程,圖/雷科技
但不同于 iPhone 上的「人像光效」,未來在加入重打光技術(shù)后,vivo 手機(jī)可以對前期拍攝到的「逆光黑臉」進(jìn)行高精度補(bǔ)光,調(diào)整光線的冷暖色溫。甚至還能通過紋理重建與光照估計(jì)算法等技術(shù),讓用戶基于自身喜好對光照、年齡、發(fā)型、表情等方面進(jìn)行重新編輯。
「未來以算法為龍頭,也并不是它自己往前跑,未來算法要去給傳統(tǒng)的光學(xué)賦能,這是它里面的邏輯關(guān)系,」vivo 影像副總裁于猛說。
我們有理由相信,這些技術(shù)應(yīng)該會在不久后就能實(shí)現(xiàn)落地,而按照 vivo 工作人員的透露,它們將會在 vivo X 系列上率先應(yīng)用。
不過 vivo 3D 影像實(shí)驗(yàn)室的目的還不止于此。
未來的「影像」,未必是實(shí)拍
隨著生成式 AI 的普及,手機(jī)和芯片廠商都在陸續(xù)加速相關(guān)技術(shù)投入。高通、榮耀強(qiáng)調(diào)了端側(cè) AI 大模型的概念,谷歌宣布將在下一款 Pixel 機(jī)型中加入最新的 PaLM2 大模型(壁虎版),華為也于最近宣布在鴻蒙 4 中結(jié)合了自家的盤古大模型,率先應(yīng)用在語音助手小藝上。
vivo 自然也不例外。不同的是,vivo 想要抓住移動影像這個(gè)生成式 AI 的最佳「試驗(yàn)場」。
在海外,Midjourney、Stable Diffusion 以及 DALL·E 2(OpenAI 旗下) 都在繪畫、圖片等應(yīng)用上取得了突破性進(jìn)展。在國內(nèi),一款名為「妙鴨相機(jī)」的 AI 繪畫小程序,也憑借精準(zhǔn)的應(yīng)用場景、較低的價(jià)格以及不俗的生成效果,迅速吸引了大量用戶。
「妙鴨相機(jī)」用戶體驗(yàn),圖/即刻@烏云花栗鼠
作為 vivo 布局 3D 影像技術(shù)的重要平臺,重慶 3D 影像實(shí)驗(yàn)室通過搭建影視級光場系統(tǒng),可重建出「毛孔級」人體 3D 模型,實(shí)現(xiàn)了更具真實(shí)感的高保真渲染視效。同時(shí)基于人像 3D 重建感知能力,vivo 也在探索疊加 AIGC 算法,通過手機(jī)即可「拍攝」虛實(shí)結(jié)合更為自然的照片,實(shí)現(xiàn)「足不出戶拍大片」的體驗(yàn)。
在參觀 3D 影像實(shí)驗(yàn)室后的閉門會議上,vivo 就展示一張由 3D 模型結(jié)合 AI 繪畫能力生成的「照片」,畫面里是一個(gè)極具真實(shí)感的賽博朋克世界以及人物。
vivo 不允許拍攝,類似將一個(gè)人塞入《賽博朋克 2077》世界。圖/Fun Academy
不同于我們之前見過的 AI 繪畫,借由工業(yè)級相機(jī)系統(tǒng)拍攝處理得出的精細(xì)化真人模型,vivo 這張「照片」里的人物不僅足夠真實(shí),理論上各種姿勢與動作也都可以比較完美地呈現(xiàn)。
某種程度上,你可以將其理解為「妙鴨相機(jī)」的進(jìn)階版,除了精細(xì)上的巨大優(yōu)勢,更核心的還是「人」。「妙鴨相機(jī)」利用 20 多張人像照片在大模型上進(jìn)行訓(xùn)練微調(diào),vivo 則是直接拍攝計(jì)算得出的 3D 模型,更接近真人,適用范圍也更廣。
不過就像前文所提,這終究只能在實(shí)驗(yàn)室環(huán)境下產(chǎn)生,vivo 最后還是要落地到手機(jī)等個(gè)人終端上,否則只能是空中樓閣。
另外值得一提的是,3D 影像的相關(guān)技術(shù)可以應(yīng)用在虛擬人應(yīng)用上。包括近期比較火熱的 3D 數(shù)字人直播、3D 表情驅(qū)動、3D 的虛擬場景編輯以及相應(yīng)的動畫制作等領(lǐng)域。而基于 3D 影像衍生的 3D 換裝應(yīng)用,可以根據(jù)采集者的人體模型,在虛擬場景內(nèi)實(shí)現(xiàn)足球游戲,目前已經(jīng)可以在 vivo 手機(jī)和平板電腦上進(jìn)行演示。
無論如何,vivo 展示了一種未來。未來我們的拍照方式或許被徹底顛覆,拍照不再是拍照,而是基于 3D 模型、生成式 AI 技術(shù)的一種新的創(chuàng)作方式。