Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成
關鍵字：模型,數據,音樂,音頻,樣本
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：蛋醬、小舟音頻生成領域又有好消息：剛剛，Stability AI 宣布推出開放模型 Stable Audio Open，該模型能夠生成高質量的音頻數據。項目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0
與 Stability AI 的商業 Stable Audio 產品（可生成長達三分鐘的更長、連貫的音樂曲目）不同，Stable Audio Open 可以通過簡單的文本提示生成長達 47 秒的高質量音頻數據。
經過專業訓練后，這個模型已經非常適合創建鼓點、樂器 riffs、環境音、擬聲錄音和其他用于音樂制作和聲音設計的音頻樣本。雖然它可以生成簡短的音樂片段，但它并未針對完整的歌曲、旋律或人聲進行優化。
Stable Audio Open 的主要優勢在于，用戶可以根據自己的自定義音頻數據對模型進行微調。
比如，下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍：生成森林中鳥兒唱歌的音頻：再生成一段「動次打次」的搖滾樂：訓練細節與數據集
Stable Audio Open 是基于 Transfo

原文鏈接：Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成