入選ACL 2024!實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀,中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3
AIGC動態(tài)歡迎閱讀
原標(biāo)題:入選ACL 2024!實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀,中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3
關(guān)鍵字:蛋白質(zhì),文本,解讀,模型,語言
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者:十九
編輯:李寶珠
中國科學(xué)技術(shù)大學(xué)王翔,聯(lián)合新加坡國立大學(xué)劉致遠(yuǎn)團(tuán)隊(duì)、北海道大學(xué)研究團(tuán)隊(duì)提出了一個全新的蛋白質(zhì)-文本建模框架 ProtT3,該框架通過跨模態(tài)投影器,將具有模態(tài)差異的 PLM 與 LM 結(jié)合,在蛋白質(zhì)字幕、蛋白質(zhì)問答、蛋白質(zhì)-文本檢索任務(wù)中均取得了優(yōu)異性能。探索蛋白質(zhì)動態(tài)結(jié)構(gòu)的奧秘,不僅是推動新藥研發(fā)的關(guān)鍵一步,更是理解生命過程的重要基石。然而,蛋白質(zhì)的復(fù)雜性讓人們難以直接捕捉并解析其深層結(jié)構(gòu)信息,如何將錯綜復(fù)雜的生物數(shù)據(jù)轉(zhuǎn)化為直觀易懂的表達(dá)形式,一直是科研領(lǐng)域的一大難題。
隨著語言模型 (LM) 的飛躍式發(fā)展,一個創(chuàng)新的想法應(yīng)運(yùn)而生:既然語言模型能夠從大量數(shù)據(jù)中學(xué)習(xí)和提取文本信息,那能否從蛋白質(zhì)數(shù)據(jù)中學(xué)會「閱讀」蛋白質(zhì)信息,直接將動態(tài)的蛋白質(zhì)結(jié)構(gòu)信息變類容易理解的文本敘述?
這一極具發(fā)展?jié)摿Φ南敕ㄔ趯?shí)際應(yīng)用時卻遇到了諸多挑戰(zhàn),例如,語言模型在蛋白質(zhì)序列的文本語料庫上進(jìn)行預(yù)訓(xùn)練,雖然具備很強(qiáng)的文本處理能力,但在理解蛋白質(zhì)結(jié)構(gòu)這種非人類「語言」時,顯得力不從心。相反,蛋白質(zhì)語言模型 (PLMs) 在蛋白質(zhì)序列語料庫上進(jìn)行預(yù)訓(xùn)練,具有優(yōu)秀的蛋白質(zhì)理解與生成能力,但
原文鏈接:入選ACL 2024!實(shí)現(xiàn)蛋白質(zhì)數(shù)據(jù)與文本信息跨模態(tài)解讀,中科大王翔團(tuán)隊(duì)提出蛋白質(zhì)-文本生成框架ProtT3
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介: