單模型斬獲「蛋白質(zhì)突變預(yù)測(cè)」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?jiǎn)?a class="external" href="http://www.futurefh.com/tag/25021.html" title="查看與 模型 相關(guān)的文章" target="_blank">模型斬獲「蛋白質(zhì)突變預(yù)測(cè)」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight
關(guān)鍵字:結(jié)構(gòu),蛋白質(zhì),模型,詞表,序列
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):8339字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】Saprot在proteingym蛋白質(zhì)突變預(yù)測(cè)任務(wù)公開(kāi)基準(zhǔn)榜(由牛津大學(xué)計(jì)算機(jī)與哈佛醫(yī)學(xué)院設(shè)立)排名第一。相比,其他排名靠前的算法都是混合模型,專(zhuān)門(mén)針對(duì)突變?nèi)蝿?wù)設(shè)計(jì),而Saprot不僅是單模型,而且是通用模型。蛋白質(zhì)結(jié)構(gòu)相比于序列往往被認(rèn)為更加具有信息量,因?yàn)槠渲苯記Q定了蛋白質(zhì)的功能。
而隨著AlphaFold2帶來(lái)的巨大突破,大量的預(yù)測(cè)結(jié)構(gòu)被發(fā)布出來(lái)供人研究使用,如何利用這些蛋白質(zhì)結(jié)構(gòu)來(lái)訓(xùn)練強(qiáng)大且通用的表征模型是一個(gè)值得研究的方向。
西湖大學(xué)的研究人員利用Foldseek來(lái)處理蛋白質(zhì)結(jié)構(gòu),將其編碼成一維的離散token,并與傳統(tǒng)的氨基酸進(jìn)行結(jié)合,形成了結(jié)構(gòu)感知詞表(Structure-aware Vocabulary),以此將結(jié)構(gòu)信息嵌入到模型輸入中,增強(qiáng)模型的表征能力。論文地址:https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4
Github地址:https://github.com/westlake-repl/SaProt
在預(yù)訓(xùn)練上,本文使用了目前最多的蛋白質(zhì)結(jié)構(gòu)(大約
原文鏈接:單模型斬獲「蛋白質(zhì)突變預(yù)測(cè)」榜一!西湖大學(xué)提出基于結(jié)構(gòu)詞表方法 | ICLR 2024 Spotlight
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)