在線教程丨石磯娘娘秒變「川渝妹子」?Step-Audio-TTS實現語音克隆/音樂合成/語音合成三合一
解鎖方言+音樂合成新玩法
原標題:在線教程丨石磯娘娘秒變「川渝妹子」?Step-Audio-TTS實現語音克隆/音樂合成/語音合成三合一
文章來源:HyperAI超神經
內容字數:4370字
Step-Audio-TTS-3B 模型:方言語音生成新突破
本文介紹了HyperAI超神經官網上線的Step-Audio-TTS-3B產品級方言語音生成模型教程,該模型由階躍星辰與吉利汽車集團聯合開源,能夠實現語音合成、音樂合成和語音克隆三大功能,并在方言語音生成領域取得了顯著突破。
1. 模型突破與功能亮點
以往,方言語音克隆模型因方言數據多樣性和模型泛化能力要求高而表現欠佳。Step-Audio-TTS-3B模型基于LLM-Chat范式大規模合成數據集訓練,能夠精準捕捉不同方言的韻律和語氣,例如四川話和粵語。該模型還首創性地實現了RAP和哼唱的語音生成,填補了音樂類語音合成的空白。
2. 教程內容與使用方法
HyperAI超神經官網提供了詳細的教程,涵蓋語音合成、音樂合成和語音克隆三個功能。用戶可在OpenBayes平臺上在線運行教程,需進行實名認證后才能訪問API地址。教程步驟包括:登錄HyperAI超神經官網,選擇教程,克隆至個人容器,選擇資源配置(推薦NVIDIA RTX A6000和PyTorch鏡像),等待資源分配,最后跳轉至Demo頁面進行操作。
3. 功能詳解
3.1 普通語音合成:支持多種語言(中文、英文、日語等)、方言(四川話、粵語等)、情感(高興、生氣、悲傷、撒嬌)和語速設置。預設了Tingting和哪吒兩種音色,分別由4秒和14秒的音頻prompt文件生成。
3.2 音樂合成:支持RAP和哼唱兩種模式,同樣預設了Tingting和哪吒兩種音色,并提供了相應的prompt文件示例。RAP音色由11秒和14秒的音頻prompt文件生成,哼唱音色由12秒和14秒的音頻prompt文件生成。
3.3 語音克隆:支持用戶上傳自定義.wav格式音頻,生成個性化語音。用戶可設置情感、語種/方言和語速。
4. 贈書活動
HyperAI超神經聯合人民郵電出版社推出贈書活動,送出5本《人工智能簡史》。參與方式:關注HyperAI超神經公眾號,并在后臺回復“人工智能簡史”,即可參與抽獎。
5. 總結
Step-Audio-TTS-3B模型及其教程的上線,為用戶提供了強大的方言語音生成工具,并拓展了語音合成的應用場景。其在音樂合成方面的創新,更是為音樂創作提供了新的可能性。
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例