<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Dolphin

        AI工具3個月前更新 AI工具集
        371 0 0

        Dolphin – 清華聯(lián)合海天瑞聲推出的語音識別大模型

        Dolphin

        Dolphin是清華大學(xué)電子工程系語音與音頻技術(shù)實驗室與海天瑞聲共同研發(fā)的一款面向東方語言的語音識別大模型。它支持40種東方語言的語音識別,尤其在中文方面,涵蓋22種方言(包括普通話),能夠精準捕捉不同地區(qū)的語言特征。Dolphin的訓(xùn)練數(shù)據(jù)總時長達到21.2萬小時,其中高質(zhì)量專有數(shù)據(jù)為13.8萬小時,開源數(shù)據(jù)為7.4萬小時。與同等尺寸的Whisper模型相比,Dolphin在詞錯率(WER)上表現(xiàn)出色,如base版本的平均WER下降了63.1%,而small版本則降低了68.2%。該模型采用CTC-Attention架構(gòu),結(jié)合E-Branchformer編碼器與Transformer解碼器,通過4倍下采樣層提升計算速度,同時保留關(guān)鍵信息。

        Dolphin是什么

        Dolphin是由清華大學(xué)電子工程系語音與音頻技術(shù)實驗室與海天瑞聲共同推出的針對東方語言的語音大模型。它支持40種東方語言的語音識別,中文方面涵蓋22種方言(包括普通話),能夠精準識別不同地區(qū)的語言特點。模型的訓(xùn)練數(shù)據(jù)總時長達到21.2萬小時,其中高質(zhì)量專有數(shù)據(jù)占13.8萬小時,開源數(shù)據(jù)為7.4萬小時。Dolphin在性能上表現(xiàn)優(yōu)異,其詞錯率(WER)明顯低于同尺寸的Whisper模型,base版本平均WER降低63.1%,small版本降低68.2%。該模型采用CTC-Attention架構(gòu),結(jié)合E-Branchformer編碼器與Transformer解碼器,通過4倍下采樣層加速計算并保留關(guān)鍵語音信息。

        Dolphin的主要功能

        • 多語言及方言識別:Dolphin支持40種東方語言的語音識別,廣泛覆蓋不同語言環(huán)境,滿足多樣化的語音識別需求。
        • 高精度語音轉(zhuǎn)文字:Dolphin能夠高效且準確地將語音信號轉(zhuǎn)換為文本,確保在多語言和方言的識別任務(wù)中保持較高的準確率,減少錯誤和誤解。
        • 自定義語言和地區(qū)設(shè)置:用戶可以根據(jù)需求靈活指定識別的語言和地區(qū)。Dolphin采用兩級語種標簽系統(tǒng),第一標簽指定語種(如<zh>表示中文),第二標簽指定地區(qū)(如<CN>表示中國),使模型能夠精準捕捉同一種語言內(nèi)不同方言和口音的差異,從而提高識別效果。
        • 開源支持與二次開發(fā):Dolphin的base與small版本模型以及推理代碼完全開源,為開發(fā)者提供了極大的便利。通過開源特性,開發(fā)者能夠根據(jù)自身需求對模型進行二次開發(fā)和優(yōu)化,滿足個性化需求,推動語音識別技術(shù)在更多領(lǐng)域的應(yīng)用與創(chuàng)新。
        • 方便快捷的使用方式:Dolphin提供多種使用方式,包括命令行調(diào)用和Python接口調(diào)用,用戶可以通過簡單的命令行指令快速啟動語音識別任務(wù),或在Python環(huán)境中靈活調(diào)用模型進行語音處理,提高開發(fā)效率和應(yīng)用靈活性。

        Dolphin的技術(shù)原理

        • CTC-Attention架構(gòu):Dolphin采用CTC-Attention架構(gòu),結(jié)合了CTC的序列建模能力與注意力機制的上下文捕捉能力,有效處理復(fù)雜音頻輸入時,保持高效處理速度,提升模型準確性和效率。
        • E-Branchformer編碼器:E-Branchformer編碼器采用并行分支結(jié)構(gòu),有效捕捉輸入語音信號的局部與全局依賴關(guān)系,為模型提供豐富特征表示,提升識別準確性。
        • Transformer解碼器:Dolphin的解碼器采用Transformer架構(gòu),在序列到序列任務(wù)中表現(xiàn)優(yōu)秀,生成高質(zhì)量文本輸出。自注意力機制有效捕捉文本中的長距離依賴,確保輸出文本的連貫性與質(zhì)量。
        • 4倍下采樣層:為進一步提升訓(xùn)練效率與性能,Dolphin引入4倍下采樣層,減少輸入特征序列長度,加速計算,同時保留重要語音信息,確保模型識別效果。
        • 兩級語種標簽系統(tǒng):Dolphin引入創(chuàng)新性的兩級語種標簽系統(tǒng),第一標簽指定語種(例如<zh>表示中文),第二標簽指定地區(qū)(例如<CN>表示中國),增強模型對方言和語言相似性的捕捉能力。

        Dolphin的項目地址

        Dolphin的應(yīng)用場景

        • 會議記錄:自動將會議中的語音內(nèi)容轉(zhuǎn)化為文字記錄,提升工作效率。
        • 語音輸入法:在智能設(shè)備上,用戶能夠通過語音輸入文字,減少手動輸入的煩惱,提升輸入速度與便利性。
        • 智能語音助手:支持多種語言和方言,能夠更好地理解用戶的語音指令,提供準確反饋,減少因方言或口音引起的誤解。
        • 智能家居:用戶可以通過語音控制智能家居設(shè)備,例如燈光、空調(diào)等,提升家居智能化和便利性。
        • 新聞媒體:快速將新聞采訪、播客等語音內(nèi)容轉(zhuǎn)化為文字,方便編輯與發(fā)布。
        • 語言學(xué)習(xí):支持多種語言和方言的識別,幫助學(xué)生練習(xí)發(fā)音與語言表達。

        常見問題

        • Dolphin支持哪些語言和方言?:Dolphin支持40種東方語言的語音識別,其中中文涵蓋了22種方言。
        • 如何使用Dolphin進行語音識別?:用戶可以通過命令行或Python接口調(diào)用Dolphin進行語音識別任務(wù),使用簡單的指令即可啟動。
        • Dolphin是開源的嗎?:是的,Dolphin的base和small版本模型及推理代碼均已開源,開發(fā)者可以使用和改進。
        • 如何進行模型微調(diào)?:用戶可以根據(jù)自身需求,利用開源代碼進行模型的二次開發(fā)和微調(diào),以適應(yīng)特定的應(yīng)用場景。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 三根一起会坏掉的好痛免费三级全黄的视频在线观看 | 国产成人无码区免费网站| 亚洲av无码国产综合专区| 亚洲av综合av一区| 亚洲欧洲精品成人久久奇米网| 青草草色A免费观看在线| 爽爽爽爽爽爽爽成人免费观看| 国产精品亚洲精品| 337p日本欧洲亚洲大胆艺术| 亚洲色婷婷一区二区三区| 四虎影视永久免费视频观看| 69天堂人成无码麻豆免费视频| 午夜精品免费在线观看 | 99亚洲男女激情在线观看| 亚洲色大18成人网站WWW在线播放 亚洲色大成WWW亚洲女子 | 亚洲精品亚洲人成在线观看| 久久久青草青青国产亚洲免观| 亚洲日韩精品无码专区网站| 国产成人99久久亚洲综合精品| 国产日韩亚洲大尺度高清| 亚洲AV人无码激艳猛片| 亚洲黄网站wwwwww| 亚洲丁香婷婷综合久久| 一级特黄aaa大片免费看| 日本免费在线观看| 成人免费无码大片a毛片| 亚洲国产精品自在拍在线播放| 亚洲AV综合色区无码一区爱AV| 亚洲av专区无码观看精品天堂| 免费看内射乌克兰女| 91精品免费不卡在线观看| 亚洲国产天堂久久综合| 久久亚洲AV成人无码软件| 免费无码午夜福利片| 成人AV免费网址在线观看| 亚洲性日韩精品国产一区二区| 亚洲粉嫩美白在线| 一级毛片免费观看不卡的| 免费在线精品视频| 亚洲精品久久无码| 免费做爰猛烈吃奶摸视频在线观看 |