150萬條多語種音頻數(shù)據(jù)！浙大清華發(fā)布語音偽造檢測框架SafeEar，兼顧隱私保護｜CCS 2024

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：150萬條多語種音頻數(shù)據(jù)！浙大清華發(fā)布語音偽造檢測框架SafeEar，兼顧隱私保護｜CCS 2024
關(guān)鍵字：語音,聲學,特征,音頻,模型
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：LRST
【新智元導(dǎo)讀】SafeEar是一種內(nèi)容隱私保護的語音偽造檢測方法，其核心是設(shè)計基于神經(jīng)音頻編解碼器的解耦模型，分離語音聲學與語義信息，僅利用聲學信息檢測，包括前端解耦模型、瓶頸層和混淆層、偽造檢測器、真實環(huán)境增強四部分。近年來，語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展，基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而，攻擊者可利用該技術(shù)進行語音偽造，即「克隆」特定對象語音，為用戶隱私安全與社會穩(wěn)定帶來嚴重威脅。
目前，已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測方法取得了優(yōu)越的檢測效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入，即需要訪問語音完整信息，在該過程中存在語音隱私泄露問題。同時，已有研究證實音色、響度等聲學特征在語音偽造檢測上的重要性[1,2]，這為僅基于聲學特征進行深度偽造檢測帶來潛在可能。
針對此問題，浙江大學智能系統(tǒng)安全實驗室(USSLAB)與清華大合提出SafeEar，一種內(nèi)容隱私保護的語音偽造檢測方法。論文地址：https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pd

原文鏈接：150萬條多語種音頻數(shù)據(jù)！浙大清華發(fā)布語音偽造檢測框架SafeEar，兼顧隱私保護｜CCS 2024