入選ACL 2024！實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀，中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3

AIGC動態(tài)1年前 (2024)發(fā)布 HyperAI超神經(jīng)

AIGC動態(tài)歡迎閱讀

原標(biāo)題：入選ACL 2024！實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀，中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3
關(guān)鍵字：蛋白質(zhì),文本,解讀,模型,語言
文章來源：HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

作者：十九
編輯：李寶珠
中國科學(xué)技術(shù)大學(xué)王翔，聯(lián)合新加坡國立大學(xué)劉致遠(yuǎn)團(tuán)隊(duì)、北海道大學(xué)研究團(tuán)隊(duì)提出了一個全新的蛋白質(zhì)-文本建模框架 ProtT3，該框架通過跨模態(tài)投影器，將具有模態(tài)差異的 PLM 與 LM 結(jié)合，在蛋白質(zhì)字幕、蛋白質(zhì)問答、蛋白質(zhì)-文本檢索任務(wù)中均取得了優(yōu)異性能。探索蛋白質(zhì)動態(tài)結(jié)構(gòu)的奧秘，不僅是推動新藥研發(fā)的關(guān)鍵一步，更是理解生命過程的重要基石。然而，蛋白質(zhì)的復(fù)雜性讓人們難以直接捕捉并解析其深層結(jié)構(gòu)信息，如何將錯綜復(fù)雜的生物數(shù)據(jù)轉(zhuǎn)化為直觀易懂的表達(dá)形式，一直是科研領(lǐng)域的一大難題。
隨著語言模型 (LM) 的飛躍式發(fā)展，一個創(chuàng)新的想法應(yīng)運(yùn)而生：既然語言模型能夠從大量數(shù)據(jù)中學(xué)習(xí)和提取文本信息，那能否從蛋白質(zhì)數(shù)據(jù)中學(xué)會「閱讀」蛋白質(zhì)信息，直接將動態(tài)的蛋白質(zhì)結(jié)構(gòu)信息變類容易理解的文本敘述？
這一極具發(fā)展?jié)摿Φ南敕ㄔ趯?shí)際應(yīng)用時卻遇到了諸多挑戰(zhàn)，例如，語言模型在蛋白質(zhì)序列的文本語料庫上進(jìn)行預(yù)訓(xùn)練，雖然具備很強(qiáng)的文本處理能力，但在理解蛋白質(zhì)結(jié)構(gòu)這種非人類「語言」時，顯得力不從心。相反，蛋白質(zhì)語言模型 (PLMs) 在蛋白質(zhì)序列語料庫上進(jìn)行預(yù)訓(xùn)練，具有優(yōu)秀的蛋白質(zhì)理解與生成能力，但

原文鏈接：入選ACL 2024！實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀，中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3