SeniorTalk – 智源聯(lián)合南開開源的超高齡老年人中文對話語音數(shù)據(jù)集

SeniorTalk是由智源研究院聯(lián)手南開大學(xué)計(jì)算機(jī)學(xué)院人類語言技術(shù)實(shí)驗(yàn)室(HLT Lab)推出的全球首個(gè)針對超高齡老年人的中文對話語音數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了202位75歲及以上的超高齡老年人的語音數(shù)據(jù),總時(shí)長達(dá)到55.53小時(shí),采集自16個(gè)省市,體現(xiàn)出不同地域的口音特點(diǎn)。數(shù)據(jù)內(nèi)容基于兩兩自發(fā)對話的形式,討論主題包括退休、健康及生活等,貼近真實(shí)的交流場景。SeniorTalk為深入研究老年人的語音信號(hào)和優(yōu)化老年人語音交互系統(tǒng)提供了重要支持,促進(jìn)了適老化設(shè)備、健康管理及輔助養(yǎng)老機(jī)器人等相關(guān)產(chǎn)業(yè)的發(fā)展。
SeniorTalk是什么
SeniorTalk是全球首個(gè)專注于中文超高齡老年人的對話語音數(shù)據(jù)集,由智源研究院與南開大學(xué)計(jì)算機(jī)學(xué)院人類語言技術(shù)實(shí)驗(yàn)室聯(lián)合發(fā)布。該數(shù)據(jù)集匯集了來自202位75歲以上老年人的語音數(shù)據(jù),涵蓋總時(shí)長55.53小時(shí),采集自全國16個(gè)省市,展現(xiàn)了豐富的地域口音,并通過兩兩自發(fā)對話的形式記錄下退休、健康、生活等話題,真實(shí)反映老年人的互動(dòng)交流。數(shù)據(jù)集還進(jìn)行了多維度的精細(xì)標(biāo)注,包括說話人信息、對話內(nèi)容轉(zhuǎn)寫、時(shí)間戳及口音類別標(biāo)簽,為研究老年人語音信號(hào)及優(yōu)化語音交互系統(tǒng)提供了寶貴的數(shù)據(jù)支持。
主要功能
- 語音識(shí)別:通過提升超高齡老年人的語音識(shí)別準(zhǔn)確性,助力開發(fā)更為精準(zhǔn)的語音識(shí)別系統(tǒng),便于老年人進(jìn)行語音交互。
- 說話人驗(yàn)證:支持說話人驗(yàn)證技術(shù)研究,確保語音交互的安全性和可靠性。
- 說話人分離:提供多說話人對話數(shù)據(jù),以助力說話人分離技術(shù)研究,幫助在復(fù)雜環(huán)境中準(zhǔn)確識(shí)別不同說話人的聲音。
- 語音編輯:憑借自然對話數(shù)據(jù),支持語音編輯技術(shù)的研究,提升語音合成及編輯效果。
- 健康監(jiān)測與輔助交流:分析超高齡老年人的語音特征,支持健康監(jiān)測與輔助交流技術(shù)的研究,為養(yǎng)老和健康管理提供數(shù)據(jù)支撐。
產(chǎn)品官網(wǎng)
- GitHub倉庫:https://github.com/flageval-baai/SeniorTalk
- HuggingFace模型庫:https://huggingface.co/datasets/BAAI/SeniorTalk
- arXiv技術(shù)論文:https://www.arxiv.org/pdf/2503.16578
應(yīng)用場景
- 智能養(yǎng)老系統(tǒng):通過語音指令控制家電、查詢信息,提升老年人的生活便利性,同時(shí)實(shí)時(shí)監(jiān)測語音健康狀況并提供預(yù)警。
- 輔助交流設(shè)備:幫助有語言障礙的老年人自然表達(dá),準(zhǔn)確識(shí)別多人對話中的特定語音指令。
- 健康管理平臺(tái):通過分析語音特征評(píng)估老年人的健康狀況,提供語音交互的健康咨詢與提醒功能。
- 智能語音助手:優(yōu)化語音助手在老年用戶中的表現(xiàn),提供更自然、易于理解的語音反饋。
- 適老化產(chǎn)品研發(fā):支持開發(fā)更符合老年人需求的智能設(shè)備,確保語音交互功能適應(yīng)老年人的使用習(xí)慣。
常見問題
- SeniorTalk的數(shù)據(jù)來源是什么?數(shù)據(jù)采集自202位超高齡老年人的自發(fā)對話,確保了語音數(shù)據(jù)的自然性與真實(shí)性。
- 如何確保數(shù)據(jù)的安全性與隱私保護(hù)?在數(shù)據(jù)采集過程中,嚴(yán)格遵循法律與倫理規(guī)范,確保參與者的隱私得到保護(hù)。
- SeniorTalk的數(shù)據(jù)如何標(biāo)注?數(shù)據(jù)標(biāo)注包括說話人信息、對話內(nèi)容轉(zhuǎn)寫、時(shí)間戳及口音類別標(biāo)簽,基于人工標(biāo)注與校對,確保數(shù)據(jù)的準(zhǔn)確性。

粵公網(wǎng)安備 44011502001135號(hào)