Dolphin

Dolphin – 清華聯合海天瑞聲推出的語音識別大模型

Dolphin

Dolphin是清華大學電子工程系語音與音頻技術實驗室與海天瑞聲共同研發的一款面向東方語言的語音識別大模型。它支持40種東方語言的語音識別，尤其在中文方面，涵蓋22種方言（包括普通話），能夠精準捕捉不同地區的語言特征。Dolphin的訓練數據總時長達到21.2萬小時，其中高質量專有數據為13.8萬小時，開源數據為7.4萬小時。與同等尺寸的Whisper模型相比，Dolphin在詞錯率（WER）上表現出色，如base版本的平均WER下降了63.1%，而small版本則降低了68.2%。該模型采用CTC-Attention架構，結合E-Branchformer編碼器與Transformer解碼器，通過4倍下采樣層提升計算速度，同時保留關鍵信息。

Dolphin是什么

Dolphin是由清華大學電子工程系語音與音頻技術實驗室與海天瑞聲共同推出的針對東方語言的語音大模型。它支持40種東方語言的語音識別，中文方面涵蓋22種方言（包括普通話），能夠精準識別不同地區的語言特點。模型的訓練數據總時長達到21.2萬小時，其中高質量專有數據占13.8萬小時，開源數據為7.4萬小時。Dolphin在性能上表現優異，其詞錯率（WER）明顯低于同尺寸的Whisper模型，base版本平均WER降低63.1%，small版本降低68.2%。該模型采用CTC-Attention架構，結合E-Branchformer編碼器與Transformer解碼器，通過4倍下采樣層加速計算并保留關鍵語音信息。

Dolphin的主要功能

多語言及方言識別：Dolphin支持40種東方語言的語音識別，廣泛覆蓋不同語言環境，滿足多樣化的語音識別需求。
高精度語音轉文字：Dolphin能夠高效且準確地將語音信號轉換為文本，確保在多語言和方言的識別任務中保持較高的準確率，減少錯誤和誤解。
自定義語言和地區設置：用戶可以根據需求靈活指定識別的語言和地區。Dolphin采用兩級語種標簽系統，第一標簽指定語種（如<zh>表示中文），第二標簽指定地區（如<CN>表示中國），使模型能夠精準捕捉同一種語言內不同方言和口音的差異，從而提高識別效果。
開源支持與二次開發：Dolphin的base與small版本模型以及推理代碼完全開源，為開發者提供了極大的便利。通過開源特性，開發者能夠根據自身需求對模型進行二次開發和優化，滿足個性化需求，推動語音識別技術在更多領域的應用與創新。
方便快捷的使用方式：Dolphin提供多種使用方式，包括命令行調用和Python接口調用，用戶可以通過簡單的命令行指令快速啟動語音識別任務，或在Python環境中靈活調用模型進行語音處理，提高開發效率和應用靈活性。

Dolphin的技術原理

CTC-Attention架構：Dolphin采用CTC-Attention架構，結合了CTC的序列建模能力與注意力機制的上下文捕捉能力，有效處理復雜音頻輸入時，保持高效處理速度，提升模型準確性和效率。
E-Branchformer編碼器：E-Branchformer編碼器采用并行分支結構，有效捕捉輸入語音信號的局部與全局依賴關系，為模型提供豐富特征表示，提升識別準確性。
Transformer解碼器：Dolphin的解碼器采用Transformer架構，在序列到序列任務中表現優秀，生成高質量文本輸出。自注意力機制有效捕捉文本中的長距離依賴，確保輸出文本的連貫性與質量。
4倍下采樣層：為進一步提升訓練效率與性能，Dolphin引入4倍下采樣層，減少輸入特征序列長度，加速計算，同時保留重要語音信息，確保模型識別效果。
兩級語種標簽系統：Dolphin引入創新性的兩級語種標簽系統，第一標簽指定語種（例如<zh>表示中文），第二標簽指定地區（例如<CN>表示中國），增強模型對方言和語言相似性的捕捉能力。