未來又該如何分辨是AI還是真人在說話?
原標題:前DeepMind大佬創業,做出喜怒哀樂以假亂真的AI語音大模型
文章來源:智東西
內容字數:6886字
Hume AI發布新型AI語音模型Octave:更人性化、更具情感
美國情感智能技術AI創企Hume AI近日發布了新款文生語音大模型Octave,旨在生成更人性化、更具情感色彩的AI語音。與以往AI語音生硬、缺乏情感的缺點相比,Octave的突破性進展在于其能夠理解上下文,并預測適當的情緒、節奏、韻律和重音,使其聽起來更像人類的聲音。
1. Octave的核心功能與優勢
Octave擁有四大核心功能:語音生成、語音設計、表演指令和語音克隆(即將上線)。它能夠根據簡單的提示詞或復雜的劇本生成帶有特定人設和情感的語音,甚至能將多種情感交織在一起。 Octave不僅理解單個句子的情感,還能捕捉上下文中的情感聯系,使其表達更豐富、更細節。 此外,它還能根據指令進行二次創作,例如調整語氣和語調。
在與ElevenLabs的對比測試中,Octave在音質、自然度和提示詞匹配度方面均優于對手,表明其在AI語音生成領域的領先地位。其訓練數據量是傳統模型的1000倍,包含數百萬小時的公開和獨家語音、視頻數據。
2. Octave的應用場景和商業模式
Octave適用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等需要預先制作語音的場景。目前,Octave主要支持英語和西班牙語,未來將支持更多語種。Hume AI采用訂閱制收費模式,提供免費版和不同等級的付費版本,滿足不同用戶的需求,付費版本提供更長的使用時長和更多的字符限制。
3. Octave的技術細節和開發者支持
Octave現已在Hume AI的開發者平臺上線,開發者可以使用Python和TypeScript SDK訪問該模型。平臺提供超過40種預設語音,并支持MP3、WAV和PCM音頻格式。 開發者平臺設置了API使用限制,例如每分鐘請求次數和文本長度上限。
4. Octave對AI語音產業的意義
Octave的出現標志著AI語音技術的一次重大飛躍,其更類人化的語音生成能力將有望應用于數字人、影視、游戲等多個領域,推動人機交互體驗的提升,并加速AI語音技術的商業化落地。 它解決了長期以來AI語音機械、缺乏情感的痛點,使得人機語音交互更自然流暢。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。