單模型斬獲「蛋白質(zhì)突變預(yù)測」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight
AIGC動態(tài)歡迎閱讀
原標題:單模型斬獲「蛋白質(zhì)突變預(yù)測」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight
關(guān)鍵字:結(jié)構(gòu),蛋白質(zhì),模型,詞表,序列
文章來源:新智元
內(nèi)容字數(shù):8339字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】Saprot在proteingym蛋白質(zhì)突變預(yù)測任務(wù)公開基準榜(由牛津大學(xué)計算機與哈佛醫(yī)學(xué)院設(shè)立)排名第一。相比,其他排名靠前的算法都是混合模型,專門針對突變?nèi)蝿?wù)設(shè)計,而Saprot不僅是單模型,而且是通用模型。蛋白質(zhì)結(jié)構(gòu)相比于序列往往被認為更加具有信息量,因為其直接決定了蛋白質(zhì)的功能。
而隨著AlphaFold2帶來的巨大突破,大量的預(yù)測結(jié)構(gòu)被發(fā)布出來供人研究使用,如何利用這些蛋白質(zhì)結(jié)構(gòu)來訓(xùn)練強大且通用的表征模型是一個值得研究的方向。
西湖大學(xué)的研究人員利用Foldseek來處理蛋白質(zhì)結(jié)構(gòu),將其編碼成一維的離散token,并與傳統(tǒng)的氨基酸進行結(jié)合,形成了結(jié)構(gòu)感知詞表(Structure-aware Vocabulary),以此將結(jié)構(gòu)信息嵌入到模型輸入中,增強模型的表征能力。論文地址:https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4
Github地址:https://github.com/westlake-repl/SaProt
在預(yù)訓(xùn)練上,本文使用了目前最多的蛋白質(zhì)結(jié)構(gòu)(大約
原文鏈接:單模型斬獲「蛋白質(zhì)突變預(yù)測」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。