Fugatto：英偉達推出性多功能AI音頻生成模型，支持高質量音頻合成與實時語音轉換

Fugatto是一款由英偉達（NVIDIA）推出的先進音頻合成與轉換模型，全稱為”Foundational Generative Audio Transformer Opus 1″。該模型具備根據文本提示生成音頻和視頻的能力，并能接收和修改現有音頻文件，展現出在音頻編輯和制作領域的巨大潛力。Fugatto能夠將鋼琴旋律轉化為人聲演唱，或改變錄音中的口音和情感表達，極大豐富了音頻創作的可能性。

Fugatto是什么

Fugatto是英偉達（NVIDIA）推出的一款音頻合成和轉換模型，其全名為“Foundational Generative Audio Transformer Opus 1”。該模型不僅可以根據文本提示生成音效和音樂，亦能接受并修改現有的音頻文件。Fugatto的設計通過增強型Transformer模型架構實現，采用了自適應層歸一化等特定技術，支持復雜的組合指令，在音頻編輯和制作領域具有極高的實用價值。

Fugatto：英偉達推出革命性多功能AI音頻生成模型，支持高質量音頻合成與實時語音轉換

Fugatto的主要功能

音頻生成與轉換：根據文本描述，Fugatto可以生成多種音效和音樂，例如將鋼琴演奏轉化為人聲演唱，或是改變錄音的口音和情感。
多任務學習：該模型支持多種音頻生成與轉換任務，包括音樂創作、聲音效果設計和語音合成等。
精細的藝術控制：通過引入ComposableART技術，用戶可以組合多個指令，精準控制聲音屬性，調整音樂的節奏和音色，或改變語音的情感與口音。
動態音頻生成：Fugatto能夠生成隨時間變化的聲音景觀，用戶可以操控聲音的變化軌跡，使音頻內容更加豐富生動。
多語言和口音支持：該模型具備強大的多語言和口音能力，能夠生成多種語言的語音內容，支持多種口音和方言，增強音頻創作的真實性。
音景創作：Fugatto能夠為電影和音頻制作創建身臨其境的音景，模擬自然現象的聲音，如雷雨聲與鳥鳴聲的結合，為用戶提供豐富的聽覺體驗。
語音樣本生成：模型可以生成新的語音樣本，改變交付的語氣和風格，為每次播放帶來獨特的感覺。

Fugatto的技術原理

深度神經網絡：Fugatto基于深度神經網絡，經過優化后能夠理解文本，將描述轉化為聲音，并根據用戶的特定需求調整輸出。
大型語言模型 (LLM)：通過運用大型語言模型，Fugatto增強了指令生成的能力，更好地理解音頻與文本提示之間的關系。
數據生成方法：Fugatto采用創新的數據生成方法，突破了傳統的監督學習，專門生成各種音頻和轉換任務的數據集。
可組合音頻表示轉換 (ComposableART)：該技術使Fugatto在推理過程中能夠組合訓練期間只能單獨使用的指令。
時間插值：Fugatto能夠生成隨時間變化的聲音，NVIDIA稱之為時間插值，能夠模擬暴雨穿越區域的聲音，雷聲逐漸增強再慢慢消失。
生成新奇聲音：與大多數只能重現訓練數據的模型不同，Fugatto支持用戶創造以前未曾見過的音景。
Transformer模型的特定修改：Fugatto的架構基于經過特定修改（如自適應層歸一化）的增強型Transformer模型，更好地支持不同輸入之間的一致性及作曲指令。