圖片來源: Meta AI Blog
Meta於2023年8月2日正式公開了名為AudioCraft的生成式音訊AI框架,這一突破性的技術將為專業音樂人、遊戲開發者和小型企業主帶來全新的創作可能性。以下是對此次發布的詳細報導。
AudioCraft:音訊生成的新篇章
1. 概述
AudioCraft是一個簡單的框架,能夠從基於文字的用戶輸入生成高質量、逼真的音樂和音效。它由三個模型組成:MusicGen、AudioGen和EnCodec,分別負責從文字生成音樂、生成音效以及解碼以實現更高質量的音樂生成。
2. 生成音訊的簡單方法
AudioCraft家族的模型能夠產生具有長期一致性的高質量音訊,並且可以通過自然界面輕鬆互動。它簡化了與以前在領域中的工作相比,音訊的生成模型的整體設計,使人們能夠充分利用Meta過去幾年開發的現有模型,同時也賦予他們推動極限和開發自己模型的能力。
3. 音訊生成的挑戰
生成高保真音訊需要在不同尺度上建模複雜的信號和模式。音樂可能是最具挑戰性的音訊類型,因為它由局部和長距離模式組成。AudioCraft通過學習原始信號中的離散音訊令牌,使用EnCodec神經音訊編解碼器來解決這一挑戰。
4. 責任和透明度
Meta強調開放源代碼的重要性,並承認用於訓練模型的數據集缺乏多樣性。通過共享AudioCraft的代碼,Meta希望其他研究人員可以更容易地測試新方法,以限制或消除生成模型的潛在偏見和濫用。
5. 未來展望
AudioCraft是生成AI研究的重要一步。Meta相信成功生成健壮、連貫和高質量音訊樣本的簡單方法將對先進的人機互動模型產生深遠影響。未來,生成AI可以幫助人們在早期原型和灰盒階段大大提高迭代速度。
結語
AudioCraft的推出不僅標誌著音訊生成技術的新里程碑,更為音樂創作、遊戲開發和創意資產的提升開辟了新的可能性。透過開放源代碼的方式,Meta正在推動整個音訊和音樂產業的創新和發展,讓更多人能夠理解和使用這些模型。這一技術的推出無疑將促使音樂家和聲音設計師以全新的方式進行創作和迭代。