大模型時代的ASR就是不一樣！豆包“聽力”水平現場評測，方言&小朋友口音直接拿捏！

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：大模型時代的ASR就是不一樣！豆包“聽力”水平現場評測，方言&小朋友口音直接拿捏！
關鍵字：模型,報告,語音,上下文,團隊
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心發布
機器之心編輯部2024 火山引擎 AI 創新巡展上海站于近日舉辦，活動展示了豆包大模型在綜合評分、語音識別等方面的效果提升，還發布了對話式 AI 實時交互解決方案。豆包大模型團隊成果 Seed-ASR ，提供了語音識別能力支持。
Seed-ASR 是一款 ASR（自動語音識別）成果。它能準確轉錄各種語音信號，識別不同語言、方言、口音。對于人名、生詞，Seed-ASR 也能結合文本語音等上下文，實現更準確轉錄。該成果目前已被集成進豆包 APP 、火山引擎相關服務模塊中。本文介紹了 Seed-ASR 技術亮點——高精度識別、大容量模型、支持多種語言、上下文感知、分階段訓練方法。相關同學還分享了立項動機、研發歷程及總結思考，展望了大模型 Scaling Laws 對 ASR 技術的推動和影響。8 月 21 日，2024 火山引擎 AI 創新巡展﹒上海站帶來了豆包大模型最新進展。
公開及內部測評集顯示，最新版本豆包大模型對比 5 月 15 日發布版本綜合能力提升 20.3% ，其中，角色扮演能力提升 38.3% ，語言理解能力提升 33.3% ，數學能力提升 13.5% 。根據

原文鏈接：大模型時代的ASR就是不一樣！豆包“聽力”水平現場評測，方言&小朋友口音直接拿捏！