GPT-SoVITS-WebUI官網
強大的少樣本語音轉換與語音合成Web用戶界面。
網站服務:AI學習網站,AI音頻工具,AI學習網站,AI音頻工具,GPT-SoVITS-WebUI,AI之旅AI導航。
GPT-SoVITS-WebUI簡介
1 min voice data can also be used to train a good TTS model! (few shot voice cloning) – RVC-Boss/GPT-SoVITS
功能:
零樣本文本到語音(TTS):?輸入 5 秒的聲音樣本,即刻體驗文本到語音轉換。
少樣本 TTS:?僅需 1 分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
跨語言支持:?支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
WebUI 工具:?集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和 GPT/SoVITS 模型。
安裝
中國地區用戶可點擊此處使用 AutoDL 云端鏡像進行體驗。
測試通過的環境
Python 3.9,PyTorch 2.0.1,CUDA 11
Python 3.10.13,PyTorch 2.1.2,CUDA 12.3
Python 3.9,Pytorch 2.2.2,macOS 14.4.1(Apple 芯片)
Python 3.9,PyTorch 2.2.2,CPU 設備
注: numba==0.56.4 需要 python<3.11
Windows
如果你是 Windows 用戶(已在 win>=10 上測試),可以下載下載整合包,解壓后雙擊 go-webui.bat 即可啟動 GPT-SoVITS-WebUI。
中國地區用戶可以通過點擊鏈接并選擇“下載副本”下載整合包。(如果下載時遇到錯誤,請退出登錄)
Linux
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits bash install.sh
macOS
注:在 Mac 上使用 GPU 訓練的模型效果顯著低于其他設備訓練的模型,所以我們暫時使用 CPU 進行訓練。
運行?xcode-select --install
?安裝 Xcode command-line tools。
運行?brew install ffmpeg
?安裝 FFmpeg。
完成上述步驟后,運行以下的命令來安裝本項目:
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip install -r requirements.txt
手動安裝
安裝依賴
pip install -r requirements.txt
安裝 FFmpeg
Conda 用戶
conda install ffmpeg
Ubuntu/Debian 用戶
sudo apt install ffmpeg sudo apt install libsox-dev conda install -c conda-forge 'ffmpeg<7'
Windows 用戶
下載并將?ffmpeg.exe?和?ffprobe.exe?放置在 GPT-SoVITS 根目錄下。
Mac 用戶
brew install ffmpeg
在 Docker 中使用
docker-compose.yaml 設置
image 的標簽:由于代碼庫更新很快,鏡像的打包和測試又很慢,所以請自行在?Docker Hub?查看當前打包好的最新的鏡像并根據自己的情況選用,或者在本地根據您自己的需求通過 Dockerfile 進行構建。
環境變量:
is_half: 半精度/雙精度控制。在進行 “SSL extracting” 步驟時如果無確生成 4-cnhubert/5-wav32k 目錄下的內容時,一般都是它引起的,可以根據實際情況來調整為 True 或者 False。
Volume 設置,容器內的應用根目錄設置為 /workspace。 默認的 docker-compose.yaml 中列出了一些實際的例子,便于上傳/下載內容。
shm_size:Windows 下的 Docker Desktop 默認可用內存過小,會導致運行異常,根據自己情況酌情設置。
deploy 小節下的 gpu 相關內容,請根據您的系統和實際情況酌情設置。
通過 docker compose 運行
docker compose -f "docker-compose.yaml" up -d
通過 docker 命令運行
同上,根據您自己的實際情況修改對應的參數,然后運行如下命令:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
預訓練模型
從?GPT-SoVITS Models?下載預訓練模型,并將它們放置在?GPT_SoVITS\pretrained_models
?中。
對于 UVR5(人聲/伴奏分離和混響移除,附加),從?UVR5 Weights?下載模型,并將它們放置在?tools/uvr5/uvr5_weights
?中。
中國地區用戶可以進入以下鏈接并點擊“下載副本”下載以上兩個模型(如果下載時遇到錯誤,請退出登錄):
GPT-SoVITS Models
UVR5 Weights
對于中文自動語音識別(附加),從?Damo ASR Model,?Damo VAD Model, 和?Damo Punc Model?下載模型,并將它們放置在?tools/asr/models
?中。
對于英語與日語自動語音識別(附加),從?Faster Whisper Large V3?下載模型,并將它們放置在?tools/asr/models
?中。 此外,其他模型可能具有類似效果,但占用更小的磁盤空間。
中國地區用戶可以通過以下鏈接下載:
Faster Whisper Large V3(點擊“下載副本”,如果下載時遇到錯誤,請退出登錄)
Faster Whisper Large V3(Hugging Face鏡像站)
數據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
‘zh’: Chinese
‘ja’: Japanese
‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
GPT-SoVITS-WebUI官網入口網址
https://github.com/RVC-Boss/GPT-SoVITS/
OpenI小編發現GPT-SoVITS-WebUI網站非常受用戶歡迎,請訪問GPT-SoVITS-WebUI網址入口試用。
數據評估
本站OpenI提供的GPT-SoVITS-WebUI都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2024年 7月 23日 下午12:16收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。