解鎖大腦的秘密:從腦信號中重建高保真流暢視頻的奇跡
多項指標上刷新SOTA。
原標題:NeurIPS 2024 Oral | 還原所見!揭秘從腦信號重建高保真流暢視頻
文章來源:機器之心
內(nèi)容字數(shù):5591字
NeuroClips: 從fMRI到視頻重建的創(chuàng)新框架
近年來,基于功能性磁共振成像(fMRI)的視覺重建成為神經(jīng)科學與計算機科學領(lǐng)域的一大研究熱點。關(guān)于這一主題的研究雖有所增加,但仍面臨諸多挑戰(zhàn)。本文介紹了NeuroClips,一個旨在實現(xiàn)高保真和流暢fMRI-to-video重建的創(chuàng)新框架。
1. 研究背景與挑戰(zhàn)
fMRI具有極高的空間分辨率,但由于掃描時間較長,導致其時間分辨率較低(0.5fps),這與重建視頻所需的高幀率(30-60fps)形成了沖突。此外,、動態(tài)場景及物體形狀變化的復雜性也讓視頻重建面臨挑戰(zhàn)。以往的研究往往缺乏對低級視覺感知的控制,難以實現(xiàn)高質(zhì)量的重建。
2. NeuroClips的框架設(shè)計
NeuroClips的整體框架包括三個關(guān)鍵組件:感知重建器(PR)、語義重建器(SR)和推理過程。PR負責生成模糊但連續(xù)的粗略視頻,確保幀間一致性;SR則聚焦于重建高質(zhì)量的關(guān)鍵幀圖像,以解決fMRI信號與視頻幀率不匹配的問題;推理過程中,結(jié)合PR和SR的輸出,通過T2V擴散模型實現(xiàn)最終視頻的高保真度和流暢性。
3. 多fMRI融合策略
為了實現(xiàn)更長的視頻重建,NeuroClips引入了多fMRI融合策略。該策略通過比較相鄰fMRI樣本的語義相似性,允許替換關(guān)鍵幀,從而實現(xiàn)最長6秒的連續(xù)視頻重建。這一創(chuàng)新方法為fMRI到視頻重建的研究開辟了新的方向。
4. 實驗結(jié)果與性能評估
在使用開源fMRI-video數(shù)據(jù)集進行實驗時,NeuroClips在多個指標上顯著優(yōu)于現(xiàn)有方法,尤其在SSIM和視頻平滑度方面表現(xiàn)突出。結(jié)果表明,NeuroClips不僅在像素級控制上具有優(yōu)勢,還在語義對齊上表現(xiàn)優(yōu)越。
5. 結(jié)論與未來展望
NeuroClips通過感知與語義重建的雙重路徑,實現(xiàn)了高質(zhì)量、高幀率和長視頻的重建,推動了fMRI到視頻重建領(lǐng)域的進步。該框架的可解釋性分析也為神經(jīng)科學研究提供了新的視角,未來有望在更廣泛的應(yīng)用中發(fā)揮重要作用。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺