解鎖大腦的秘密:從腦信號(hào)中重建高保真流暢視頻的奇跡
多項(xiàng)指標(biāo)上刷新SOTA。
原標(biāo)題:NeurIPS 2024 Oral | 還原所見(jiàn)!揭秘從腦信號(hào)重建高保真流暢視頻
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5591字
NeuroClips: 從fMRI到視頻重建的創(chuàng)新框架
近年來(lái),基于功能性磁共振成像(fMRI)的視覺(jué)重建成為神經(jīng)科學(xué)與計(jì)算機(jī)科學(xué)領(lǐng)域的一大研究熱點(diǎn)。關(guān)于這一主題的研究雖有所增加,但仍面臨諸多挑戰(zhàn)。本文介紹了NeuroClips,一個(gè)旨在實(shí)現(xiàn)高保真和流暢fMRI-to-video重建的創(chuàng)新框架。
1. 研究背景與挑戰(zhàn)
fMRI具有極高的空間分辨率,但由于掃描時(shí)間較長(zhǎng),導(dǎo)致其時(shí)間分辨率較低(0.5fps),這與重建視頻所需的高幀率(30-60fps)形成了沖突。此外,、動(dòng)態(tài)場(chǎng)景及物體形狀變化的復(fù)雜性也讓視頻重建面臨挑戰(zhàn)。以往的研究往往缺乏對(duì)低級(jí)視覺(jué)感知的控制,難以實(shí)現(xiàn)高質(zhì)量的重建。
2. NeuroClips的框架設(shè)計(jì)
NeuroClips的整體框架包括三個(gè)關(guān)鍵組件:感知重建器(PR)、語(yǔ)義重建器(SR)和推理過(guò)程。PR負(fù)責(zé)生成模糊但連續(xù)的粗略視頻,確保幀間一致性;SR則聚焦于重建高質(zhì)量的關(guān)鍵幀圖像,以解決fMRI信號(hào)與視頻幀率不匹配的問(wèn)題;推理過(guò)程中,結(jié)合PR和SR的輸出,通過(guò)T2V擴(kuò)散模型實(shí)現(xiàn)最終視頻的高保真度和流暢性。
3. 多fMRI融合策略
為了實(shí)現(xiàn)更長(zhǎng)的視頻重建,NeuroClips引入了多fMRI融合策略。該策略通過(guò)比較相鄰fMRI樣本的語(yǔ)義相似性,允許替換關(guān)鍵幀,從而實(shí)現(xiàn)最長(zhǎng)6秒的連續(xù)視頻重建。這一創(chuàng)新方法為fMRI到視頻重建的研究開(kāi)辟了新的方向。
4. 實(shí)驗(yàn)結(jié)果與性能評(píng)估
在使用開(kāi)源fMRI-video數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí),NeuroClips在多個(gè)指標(biāo)上顯著優(yōu)于現(xiàn)有方法,尤其在SSIM和視頻平滑度方面表現(xiàn)突出。結(jié)果表明,NeuroClips不僅在像素級(jí)控制上具有優(yōu)勢(shì),還在語(yǔ)義對(duì)齊上表現(xiàn)優(yōu)越。
5. 結(jié)論與未來(lái)展望
NeuroClips通過(guò)感知與語(yǔ)義重建的雙重路徑,實(shí)現(xiàn)了高質(zhì)量、高幀率和長(zhǎng)視頻的重建,推動(dòng)了fMRI到視頻重建領(lǐng)域的進(jìn)步。該框架的可解釋性分析也為神經(jīng)科學(xué)研究提供了新的視角,未來(lái)有望在更廣泛的應(yīng)用中發(fā)揮重要作用。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)