Meta重磅發布7B-Spirit LM：開創音頻與文本融合的新紀元！

原標題：首個可保留情感的音頻LLM！Meta重磅開源7B-Spirit LM，一網打盡「音頻+文本」多模態任務
文章來源：新智元
內容字數：6750字

Meta近日發布了一個新的多模態語言模型——Spirit LM，具有7B參數的結構，能夠同時理解和生成語音及文本。這一模型的目的是為了實現文本與語音之間的自然轉換，不僅能夠處理基本的語音轉文本和文本轉語音任務，還能捕捉和再現語音中的情感和風格。

隨著純文本大模型的不斷進步，語音與文本結合的語言模型（SpeechLMs）逐漸成為研究熱點。然而，現有模型在訓練時通常只側重于單一模態，導致其在其他任務上的泛化能力有限。傳統流程中，通常需要經過ASR、文本模型和TTS三步，效率低且表達性不足。

Spirit LM通過交錯使用文本和語音數據進行訓練，形成了一種新型的token流。其訓練數據包括文本序列、語音序列及交錯的語音-文本序列。這一模型的基礎版使用HuBERT語音編碼器，而表達版則額外引入音高和風格token，提升生成語音的表現力。

表達版的Spirit LM在生成語音時，能夠更好地捕捉情感和風格。這一過程依賴于音高token和風格token的使用，使得模型不僅能理解基本語音，還能生成更具表現力的內容。研究表明，音高變化對語義理解至關重要，而風格特征則有助于提升表達效果。

Spirit LM在多項任務中顯示出優越的性能，尤其在支持少量樣本提示時，能夠實現自動語音識別（ASR）和文本轉語音（TTS）的良好效果。實驗結果顯示，在Librispeech數據集上取得了21.9的詞錯誤率和45.5的字符錯誤率，展現了其強大的跨模態處理能力。

盡管Spirit LM在多模態生成方面表現出色，但仍需進行安全測試和內容調整，以避免生成不安全的內容。研究人員認為，進一步提升模型對情感表達的理解與生成能力仍然是未來的研究重點。

總之，Meta的Spirit LM為多模態語言模型的發展提供了新的思路，展示了在語音與文本生成領域的廣闊前景。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...