AIGC動態歡迎閱讀
原標題:單模型斬獲「蛋白質突變預測」榜一!西湖大學提出基于結構詞表方法 | ICLR 2024 Spotlight
關鍵字:結構,蛋白質,模型,詞表,序列
文章來源:新智元
內容字數:8339字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】Saprot在proteingym蛋白質突變預測任務公開基準榜(由牛津大學計算機與哈佛醫學院設立)排名第一。相比,其他排名靠前的算法都是混合模型,專門針對突變任務設計,而Saprot不僅是單模型,而且是通用模型。蛋白質結構相比于序列往往被認為更加具有信息量,因為其直接決定了蛋白質的功能。
而隨著AlphaFold2帶來的巨大突破,大量的預測結構被發布出來供人研究使用,如何利用這些蛋白質結構來訓練強大且通用的表征模型是一個值得研究的方向。
西湖大學的研究人員利用Foldseek來處理蛋白質結構,將其編碼成一維的離散token,并與傳統的氨基酸進行結合,形成了結構感知詞表(Structure-aware Vocabulary),以此將結構信息嵌入到模型輸入中,增強模型的表征能力。論文地址:https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4
Github地址:https://github.com/westlake-repl/SaProt
在預訓練上,本文使用了目前最多的蛋白質結構(大約
原文鏈接:單模型斬獲「蛋白質突變預測」榜一!西湖大學提出基于結構詞表方法 | ICLR 2024 Spotlight
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。