Meta音頻AI三件套爆火：一句話生成流行音樂(lè)&音效，還能高保真壓縮音頻｜開(kāi)源

由微新創(chuàng)想 · 2023年 8月 6日

聲明:本文來(lái)自于微信公眾號(hào) 量子位（ID:QbitAI），作者:魚(yú)羊栗子，授權(quán)微新創(chuàng)想轉(zhuǎn)載發(fā)布。

Meta突然放大招，直接給一系列音頻AI模型搞了個(gè)“全家桶”。

從文本生成音樂(lè)、文本生成音效、到高質(zhì)量音頻壓縮，音頻編輯和音頻生成的AI工具全都有，命名為AudioCraft。

AudioCraft中的所有模型，全部開(kāi)源。

無(wú)論是生成流行音樂(lè):

文本提示詞:流行舞曲，旋律朗朗上口，熱帶打擊樂(lè)和歡快的節(jié)奏，量子位，30秒

還是生成音效:

文本提示詞:吹著風(fēng)吹口哨，量子位，5秒

現(xiàn)在都只需要一句文本就能搞定。

值得一提的是，Meta刻意強(qiáng)調(diào)自己所有AI的訓(xùn)練數(shù)據(jù)都是經(jīng)過(guò)授權(quán)、或是從公開(kāi)渠道獲取的。

有網(wǎng)友聞?dòng)嵹s來(lái)嘗試:

這太瘋狂了，剛剛試了一下，生成的聲音效果真不錯(cuò)!

還有網(wǎng)友調(diào)侃，Meta這是要與OpenAI“劃界限”:

很明顯，Meta試圖將自己與OpenAI區(qū)分開(kāi)來(lái)，“我們不使用沒(méi)授權(quán)的數(shù)據(jù)”。

所以，這個(gè)音頻AI“全家桶”里有些啥，實(shí)際生成編輯效果又如何?

從生成到編輯，音頻AI三件套

AudioCraft是一個(gè)音頻AI開(kāi)源庫(kù)，目前包含MusicGen，AudioGen和EnCodec三個(gè)音頻AI工具。

據(jù)Meta介紹，為了發(fā)布AudioCraft，他們這兩天還特意更新了一版EnCodec模型，讓它的輸出質(zhì)量更高。

具體來(lái)說(shuō)，這三個(gè)模型分別用于文本生成音樂(lè)、文本生成音效和音頻壓縮:

MusicGen:基于文本輸入生成音樂(lè)，使用Meta擁有和專(zhuān)門(mén)授權(quán)的音樂(lè)進(jìn)行訓(xùn)練
AudioGen:基于文本輸入生成音效（雨點(diǎn)聲、狗吠、警笛等），使用公共音效訓(xùn)練
EnCodec:壓縮音頻，以較低的音損保持音頻的高質(zhì)量

首先是AudioGen，這是一個(gè)自回歸生成模型。

AudioGen基于10個(gè)公開(kāi)的音效數(shù)據(jù)集訓(xùn)練，里面包括狗吠、汽車(chē)?guó)Q喇叭或木地板的腳步聲等各種音效。

然后是MusicGen模型，一共包含300M、1.5B、3.3B三個(gè)不同參數(shù)量的自回歸Transformer。

MusicGen使用了20000小時(shí)的音樂(lè)來(lái)訓(xùn)練，包含10000條內(nèi)部搜集的高質(zhì)量音軌，以及ShutterStock和Pond5素材庫(kù)中的數(shù)據(jù)，后兩者的數(shù)據(jù)量分別為2.5萬(wàn)和36.5萬(wàn)。

這些音樂(lè)數(shù)據(jù)在32kHz下被重新采樣，都配有流派、BPM等基本信息和復(fù)雜一些的文字說(shuō)明。

最后是EnCodec神經(jīng)音頻編解碼器（neural audio codec）。

編碼器能從要壓縮的音頻信號(hào)中學(xué)習(xí)離散的音頻token;隨后，基于一個(gè)自回歸語(yǔ)言模型，將音頻信號(hào)壓縮到目標(biāo)大小;最后，基于解碼器，就能將壓縮的信號(hào)高保真重建回音頻。

基于這種壓縮效果，音頻能被壓縮到比MP3格式還要小10倍。

可直接上手試玩

目前這幾個(gè)模型都已經(jīng)開(kāi)源，框架都是基于PyTorch打造。

包括MusicGen、AudioGen和EnCodec的論文細(xì)節(jié)，可以在GitHub項(xiàng)目中找到:

不過(guò)，訓(xùn)練代碼并非全部開(kāi)源，目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是開(kāi)源的:

其中MusicGEN還開(kāi)啟了Demo試玩，我們之前也測(cè)試過(guò):

不過(guò)對(duì)于AudioCraft的發(fā)布，網(wǎng)友們的評(píng)價(jià)也是褒貶不一。

有網(wǎng)友覺(jué)得，這樣音頻生成就變得更加大眾化了，所有人都可以上手嘗試:

但也有網(wǎng)友認(rèn)為，這勢(shì)必導(dǎo)致人類(lèi)連音頻的真假都區(qū)分不清:

10年后，說(shuō)不定我們就分辨不清過(guò)去的聲音、圖片、視頻了。

One More Thing

最近，音頻生成AI確實(shí)很火，就連效果都卷起來(lái)了。

這兩天，一個(gè)論文和代碼都還在準(zhǔn)備的模型AudioLDM2，剛放出demo就已經(jīng)在網(wǎng)上傳開(kāi)了來(lái):

作者Haohe Liu表示，這個(gè)模型在生成音效、音樂(lè)和可理解語(yǔ)音三個(gè)領(lǐng)域中均達(dá)到了SOTA。

從它實(shí)際生成效果來(lái)看，確實(shí)不錯(cuò)，感興趣的小伙伴們，可以蹲一波后續(xù)了~

MusicGEN試玩地址:

https://huggingface.co/spaces/facebook/MusicGen

參考鏈接:

[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

[2]https://github.com/facebookresearch/audiocraft

[3]https://twitter.com/LiuHaohe/status/1686782804518973440

[4]https://news.ycombinator.com/item?id=36972347

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Meta音頻AI三件套爆火：一句話生成流行音樂(lè)&音效，還能高保真壓縮音頻｜開(kāi)源

從生成到編輯，音頻AI三件套

可直接上手試玩

One More Thing

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門(mén)文章

熱門(mén)文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Meta音頻AI三件套爆火：一句話生成流行音樂(lè)&音效，還能高保真壓縮音頻｜開(kāi)源

從生成到編輯，音頻AI三件套

可直接上手試玩

One More Thing

您可能還喜歡...

CHATGPT主題基金

小紅書(shū)旗下公司新增AI軟件開(kāi)發(fā)業(yè)務(wù)

職場(chǎng)畫(huà)餅好不好，閉環(huán)很重要

發(fā)表回復(fù) 取消回復(fù)

熱門(mén)文章

熱門(mén)文章