Dolphin – 清華聯合海天瑞聲推出的語音識別大模型
Dolphin是清華大學電子工程系語音與音頻技術實驗室與海天瑞聲共同研發的一款面向東方語言的語音識別大模型。它支持40種東方語言的語音識別,尤其在中文方面,涵蓋22種方言(包括普通話),能夠精準捕捉不同地區的語言特征。Dolphin的訓練數據總時長達到21.2萬小時,其中高質量專有數據為13.8萬小時,開源數據為7.4萬小時。與同等尺寸的Whisper模型相比,Dolphin在詞錯率(WER)上表現出色,如base版本的平均WER下降了63.1%,而small版本則降低了68.2%。該模型采用CTC-Attention架構,結合E-Branchformer編碼器與Transformer解碼器,通過4倍下采樣層提升計算速度,同時保留關鍵信息。
Dolphin是什么
Dolphin是由清華大學電子工程系語音與音頻技術實驗室與海天瑞聲共同推出的針對東方語言的語音大模型。它支持40種東方語言的語音識別,中文方面涵蓋22種方言(包括普通話),能夠精準識別不同地區的語言特點。模型的訓練數據總時長達到21.2萬小時,其中高質量專有數據占13.8萬小時,開源數據為7.4萬小時。Dolphin在性能上表現優異,其詞錯率(WER)明顯低于同尺寸的Whisper模型,base版本平均WER降低63.1%,small版本降低68.2%。該模型采用CTC-Attention架構,結合E-Branchformer編碼器與Transformer解碼器,通過4倍下采樣層加速計算并保留關鍵語音信息。
Dolphin的主要功能
- 多語言及方言識別:Dolphin支持40種東方語言的語音識別,廣泛覆蓋不同語言環境,滿足多樣化的語音識別需求。
- 高精度語音轉文字:Dolphin能夠高效且準確地將語音信號轉換為文本,確保在多語言和方言的識別任務中保持較高的準確率,減少錯誤和誤解。
- 自定義語言和地區設置:用戶可以根據需求靈活指定識別的語言和地區。Dolphin采用兩級語種標簽系統,第一標簽指定語種(如<zh>表示中文),第二標簽指定地區(如<CN>表示中國),使模型能夠精準捕捉同一種語言內不同方言和口音的差異,從而提高識別效果。
- 開源支持與二次開發:Dolphin的base與small版本模型以及推理代碼完全開源,為開發者提供了極大的便利。通過開源特性,開發者能夠根據自身需求對模型進行二次開發和優化,滿足個性化需求,推動語音識別技術在更多領域的應用與創新。
- 方便快捷的使用方式:Dolphin提供多種使用方式,包括命令行調用和Python接口調用,用戶可以通過簡單的命令行指令快速啟動語音識別任務,或在Python環境中靈活調用模型進行語音處理,提高開發效率和應用靈活性。
Dolphin的技術原理
- CTC-Attention架構:Dolphin采用CTC-Attention架構,結合了CTC的序列建模能力與注意力機制的上下文捕捉能力,有效處理復雜音頻輸入時,保持高效處理速度,提升模型準確性和效率。
- E-Branchformer編碼器:E-Branchformer編碼器采用并行分支結構,有效捕捉輸入語音信號的局部與全局依賴關系,為模型提供豐富特征表示,提升識別準確性。
- Transformer解碼器:Dolphin的解碼器采用Transformer架構,在序列到序列任務中表現優秀,生成高質量文本輸出。自注意力機制有效捕捉文本中的長距離依賴,確保輸出文本的連貫性與質量。
- 4倍下采樣層:為進一步提升訓練效率與性能,Dolphin引入4倍下采樣層,減少輸入特征序列長度,加速計算,同時保留重要語音信息,確保模型識別效果。
- 兩級語種標簽系統:Dolphin引入創新性的兩級語種標簽系統,第一標簽指定語種(例如<zh>表示中文),第二標簽指定地區(例如<CN>表示中國),增強模型對方言和語言相似性的捕捉能力。
Dolphin的項目地址
- Github倉庫:https://github.com/DataoceanAI/Dolphin
- HuggingFace模型庫:https://huggingface.co/DataoceanAI
- arXiv技術論文:https://arxiv.org/pdf/2503.20212
Dolphin的應用場景
- 會議記錄:自動將會議中的語音內容轉化為文字記錄,提升工作效率。
- 語音輸入法:在智能設備上,用戶能夠通過語音輸入文字,減少手動輸入的煩惱,提升輸入速度與便利性。
- 智能語音助手:支持多種語言和方言,能夠更好地理解用戶的語音指令,提供準確反饋,減少因方言或口音引起的誤解。
- 智能家居:用戶可以通過語音控制智能家居設備,例如燈光、空調等,提升家居智能化和便利性。
- 新聞媒體:快速將新聞采訪、播客等語音內容轉化為文字,方便編輯與發布。
- 語言學習:支持多種語言和方言的識別,幫助學生練習發音與語言表達。
常見問題
- Dolphin支持哪些語言和方言?:Dolphin支持40種東方語言的語音識別,其中中文涵蓋了22種方言。
- 如何使用Dolphin進行語音識別?:用戶可以通過命令行或Python接口調用Dolphin進行語音識別任務,使用簡單的指令即可啟動。
- Dolphin是開源的嗎?:是的,Dolphin的base和small版本模型及推理代碼均已開源,開發者可以使用和改進。
- 如何進行模型微調?:用戶可以根據自身需求,利用開源代碼進行模型的二次開發和微調,以適應特定的應用場景。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...