耶魯、劍橋等開發(fā)MindLLM,將腦成像直接轉(zhuǎn)換為文本
原標(biāo)題:耶魯、劍橋等開發(fā)MindLLM,將腦成像直接轉(zhuǎn)換為文本
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):9501字
MindLLM:解碼fMRI信號,邁向更精準(zhǔn)的腦機接口
本文總結(jié)了耶魯大學(xué)、達(dá)特茅斯學(xué)院和劍橋大學(xué)研究人員發(fā)表在arXiv上的論文“MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding”,該論文提出了一種名為MindLLM的新模型,用于將功能性磁共振成像(fMRI)信號解碼為文本。
1. fMRI到文本解碼的挑戰(zhàn)
將大腦活動解碼為文本一直是神經(jīng)科學(xué)領(lǐng)域的一大挑戰(zhàn)。現(xiàn)有方法存在預(yù)測性能差、任務(wù)種類有限、跨受試者泛化能力弱等問題。例如,UMBRAE模型只能將fMRI數(shù)據(jù)映射到圖像,無法處理更復(fù)雜的任務(wù),如記憶檢索。此外,缺乏統(tǒng)一且個體無關(guān)的解碼架構(gòu)也限制了該技術(shù)的應(yīng)用。
2. MindLLM模型的創(chuàng)新之處
MindLLM模型旨在解決上述問題,它具有主題無關(guān)和用途廣泛的特點。其核心創(chuàng)新在于:
- 主題無關(guān)的fMRI編碼器:該編碼器結(jié)合了神經(jīng)科學(xué)信息注意層和可學(xué)習(xí)查詢,利用體素的空間信息和神經(jīng)科學(xué)先驗知識,實現(xiàn)動態(tài)特征提取,提高預(yù)測準(zhǔn)確性。其值和鍵的設(shè)計將體素的功能信息與其fMRI值分開,增強了跨主體泛化能力。
- 腦指令調(diào)整(BIT):這是一種新的訓(xùn)練方法,使用包含不同任務(wù)(感知、記憶、語言處理等)的多樣化數(shù)據(jù)集,增強模型捕獲fMRI數(shù)據(jù)中不同語義表示的能力,從而實現(xiàn)更通用的解碼。
- 結(jié)合預(yù)訓(xùn)練大型語言模型(LLM):MindLLM利用現(xiàn)成的LLM,進一步提升了文本生成的質(zhì)量和流暢性。
3. MindLLM的性能評估
在全面的fMRI到文本基準(zhǔn)測試中,MindLLM的表現(xiàn)優(yōu)于現(xiàn)有基線模型。具體而言,其在各種下游任務(wù)中的性能平均提高了12.0%,在未見過主題上的泛化能力提高了16.4%,在新任務(wù)適應(yīng)能力上提高了25.0%。此外,MindLLM的注意力模式提供了其決策過程的可解釋性。
4. MindLLM的應(yīng)用前景
MindLLM技術(shù)的突破為腦機接口和神經(jīng)科學(xué)研究帶來了新的可能性。其潛在應(yīng)用包括:
- 幫助語言障礙者恢復(fù)溝通能力。
- 實現(xiàn)健康人群對數(shù)字設(shè)備(如具身AI或假肢)的更直觀、精確的神經(jīng)控制。
5. 總結(jié)
MindLLM模型的出現(xiàn)標(biāo)志著fMRI到文本解碼技術(shù)取得了顯著進展。其主題無關(guān)性、通用性和優(yōu)越的性能,為腦機接口等領(lǐng)域的應(yīng)用提供了堅實的基礎(chǔ),也為加深對大腦機制的理解提供了新的工具。未來研究可以進一步探索MindLLM的應(yīng)用場景,并改進其模型架構(gòu),以實現(xiàn)更準(zhǔn)確、更可靠的腦活動解碼。
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)