150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測框架SafeEar,兼顧隱私保護|CCS 2024

AIGC動態(tài)歡迎閱讀
原標題:150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測框架SafeEar,兼顧隱私保護|CCS 2024
關(guān)鍵字:語音,聲學,特征,音頻,模型
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRST
【新智元導(dǎo)讀】SafeEar是一種內(nèi)容隱私保護的語音偽造檢測方法,其核心是設(shè)計基于神經(jīng)音頻編解碼器的解耦模型,分離語音聲學與語義信息,僅利用聲學信息檢測,包括前端解耦模型、瓶頸層和混淆層、偽造檢測器、真實環(huán)境增強四部分。近年來,語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展,基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而,攻擊者可利用該技術(shù)進行語音偽造,即「克隆」特定對象語音,為用戶隱私安全與社會穩(wěn)定帶來嚴重威脅。
目前,已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測方法取得了優(yōu)越的檢測效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入,即需要訪問語音完整信息,在該過程中存在語音隱私泄露問題。同時,已有研究證實音色、響度等聲學特征在語音偽造檢測上的重要性[1,2],這為僅基于聲學特征進行深度偽造檢測帶來潛在可能。
針對此問題,浙江大學智能系統(tǒng)安全實驗室(USSLAB)與清華大合提出SafeEar,一種內(nèi)容隱私保護的語音偽造檢測方法。論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pd
原文鏈接:150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測框架SafeEar,兼顧隱私保護|CCS 2024
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號