前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型
未來(lái)又該如何分辨是AI還是真人在說(shuō)話?
原標(biāo)題:前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型
文章來(lái)源:智東西
內(nèi)容字?jǐn)?shù):6886字
Hume AI發(fā)布新型AI語(yǔ)音模型Octave:更人性化、更具情感
美國(guó)情感智能技術(shù)AI創(chuàng)企Hume AI近日發(fā)布了新款文生語(yǔ)音大模型Octave,旨在生成更人性化、更具情感色彩的AI語(yǔ)音。與以往AI語(yǔ)音生硬、缺乏情感的缺點(diǎn)相比,Octave的突破性進(jìn)展在于其能夠理解上下文,并預(yù)測(cè)適當(dāng)?shù)那榫w、節(jié)奏、韻律和重音,使其聽(tīng)起來(lái)更像人類的聲音。
1. Octave的核心功能與優(yōu)勢(shì)
Octave擁有四大核心功能:語(yǔ)音生成、語(yǔ)音設(shè)計(jì)、表演指令和語(yǔ)音克?。磳⑸暇€)。它能夠根據(jù)簡(jiǎn)單的提示詞或復(fù)雜的劇本生成帶有特定人設(shè)和情感的語(yǔ)音,甚至能將多種情感交織在一起。 Octave不僅理解單個(gè)句子的情感,還能捕捉上下文中的情感聯(lián)系,使其表達(dá)更豐富、更細(xì)節(jié)。 此外,它還能根據(jù)指令進(jìn)行二次創(chuàng)作,例如調(diào)整語(yǔ)氣和語(yǔ)調(diào)。
在與ElevenLabs的對(duì)比測(cè)試中,Octave在音質(zhì)、自然度和提示詞匹配度方面均優(yōu)于對(duì)手,表明其在AI語(yǔ)音生成領(lǐng)域的領(lǐng)先地位。其訓(xùn)練數(shù)據(jù)量是傳統(tǒng)模型的1000倍,包含數(shù)百萬(wàn)小時(shí)的公開和獨(dú)家語(yǔ)音、視頻數(shù)據(jù)。
2. Octave的應(yīng)用場(chǎng)景和商業(yè)模式
Octave適用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等需要預(yù)先制作語(yǔ)音的場(chǎng)景。目前,Octave主要支持英語(yǔ)和西班牙語(yǔ),未來(lái)將支持更多語(yǔ)種。Hume AI采用訂閱制收費(fèi)模式,提供免費(fèi)版和不同等級(jí)的付費(fèi)版本,滿足不同用戶的需求,付費(fèi)版本提供更長(zhǎng)的使用時(shí)長(zhǎng)和更多的字符限制。
3. Octave的技術(shù)細(xì)節(jié)和開發(fā)者支持
Octave現(xiàn)已在Hume AI的開發(fā)者平臺(tái)上線,開發(fā)者可以使用Python和TypeScript SDK訪問(wèn)該模型。平臺(tái)提供超過(guò)40種預(yù)設(shè)語(yǔ)音,并支持MP3、WAV和PCM音頻格式。 開發(fā)者平臺(tái)設(shè)置了API使用限制,例如每分鐘請(qǐng)求次數(shù)和文本長(zhǎng)度上限。
4. Octave對(duì)AI語(yǔ)音產(chǎn)業(yè)的意義
Octave的出現(xiàn)標(biāo)志著AI語(yǔ)音技術(shù)的一次重大飛躍,其更類人化的語(yǔ)音生成能力將有望應(yīng)用于數(shù)字人、影視、游戲等多個(gè)領(lǐng)域,推動(dòng)人機(jī)交互體驗(yàn)的提升,并加速AI語(yǔ)音技術(shù)的商業(yè)化落地。 它解決了長(zhǎng)期以來(lái)AI語(yǔ)音機(jī)械、缺乏情感的痛點(diǎn),使得人機(jī)語(yǔ)音交互更自然流暢。
聯(lián)系作者
文章來(lái)源:智東西
作者微信:
作者簡(jiǎn)介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)升級(jí)。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。