4000萬蛋白結構訓練，西湖大學開發基于結構詞表的蛋白質通用大模型，已開源

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：4000萬蛋白結構訓練，西湖大學開發基于結構詞表的蛋白質通用大模型，已開源
關鍵字：結構,蛋白質,模型,詞表,序列
文章來源：機器之心
內容字數：5725字

內容摘要：

將ScienceAI設為星標
第一時間掌握
新鮮的AI for Science資訊編輯 |ScienceAI
蛋白質結構相比于序列往往被認為更加具有信息量，因為其直接決定了蛋白質的功能。而隨著AlphaFold2帶來的巨大突破，大量的預測結構被發布出來供人研究使用。如何利用這些蛋白質結構來訓練強大且通用的表征模型是一個值得研究的方向。
西湖大學的研究人員利用Foldseek來處理蛋白質結構，將其編碼成一維的離散token，并與傳統的氨基酸進行結合，形成了結構感知詞表（Structure-aware Vocabulary），以此將結構信息嵌入到模型輸入中，增強模型的表征能力。
在預訓練上，論文使用了目前最多的蛋白質結構（identity過濾后4000萬），在64張A100上訓練了3個月，最終開源了具備650M參數量的模型SaProt（同時包括了35M的版本）。實驗結果表明SaProt各種蛋白質任務上都要好于之前的序列和結構模型。
研究《SaProt: Protein Language Modeling with Structure-aware Vocabulary》的預印版本，于2024

原文鏈接：4000萬蛋白結構訓練，西湖大學開發基于結構詞表的蛋白質通用大模型，已開源