多項指標上刷新SOTA。
原標題:NeurIPS 2024 Oral | 還原所見!揭秘從腦信號重建高保真流暢視頻
文章來源:機器之心
內容字數:5591字
NeuroClips: 從fMRI到視頻重建的創新框架
近年來,基于功能性磁共振成像(fMRI)的視覺重建成為神經科學與計算機科學領域的一大研究熱點。關于這一主題的研究雖有所增加,但仍面臨諸多挑戰。本文介紹了NeuroClips,一個旨在實現高保真和流暢fMRI-to-video重建的創新框架。
1. 研究背景與挑戰
fMRI具有極高的空間分辨率,但由于掃描時間較長,導致其時間分辨率較低(0.5fps),這與重建視頻所需的高幀率(30-60fps)形成了沖突。此外,、動態場景及物體形狀變化的復雜性也讓視頻重建面臨挑戰。以往的研究往往缺乏對低級視覺感知的控制,難以實現高質量的重建。
2. NeuroClips的框架設計
NeuroClips的整體框架包括三個關鍵組件:感知重建器(PR)、語義重建器(SR)和推理過程。PR負責生成模糊但連續的粗略視頻,確保幀間一致性;SR則聚焦于重建高質量的關鍵幀圖像,以解決fMRI信號與視頻幀率不匹配的問題;推理過程中,結合PR和SR的輸出,通過T2V擴散模型實現最終視頻的高保真度和流暢性。
3. 多fMRI融合策略
為了實現更長的視頻重建,NeuroClips引入了多fMRI融合策略。該策略通過比較相鄰fMRI樣本的語義相似性,允許替換關鍵幀,從而實現最長6秒的連續視頻重建。這一創新方法為fMRI到視頻重建的研究開辟了新的方向。
4. 實驗結果與性能評估
在使用開源fMRI-video數據集進行實驗時,NeuroClips在多個指標上顯著優于現有方法,尤其在SSIM和視頻平滑度方面表現突出。結果表明,NeuroClips不僅在像素級控制上具有優勢,還在語義對齊上表現優越。
5. 結論與未來展望
NeuroClips通過感知與語義重建的雙重路徑,實現了高質量、高幀率和長視頻的重建,推動了fMRI到視頻重建領域的進步。該框架的可解釋性分析也為神經科學研究提供了新的視角,未來有望在更廣泛的應用中發揮重要作用。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺