登Science子刊!上海交大聯(lián)合上海AI Lab等發(fā)布蛋白質(zhì)突變體設(shè)計模型,優(yōu)于最先進方法
作者:李寶珠編輯:十九上海交通大合上海人工智能實驗室,以及上海科技大學(xué)和中科院杭州醫(yī)學(xué)院的合作者,共同開發(fā)出了一種新的蛋白質(zhì)序列大語言模型預(yù)訓(xùn)練方法 PRIME。蛋白質(zhì)不僅是人體生命活動的執(zhí)行者,同時也在生物醫(yī)藥、食品加工、釀造業(yè)、化工業(yè)等多領(lǐng)域發(fā)揮著重要作用。所以,人們從未停止圍繞蛋白質(zhì)結(jié)構(gòu)、功能等展開研究,為工業(yè)應(yīng)用場景遴選出符合需求、穩(wěn)定性高的蛋白質(zhì)。然而,從生物體中提取的「野生型」蛋白質(zhì),在工業(yè)環(huán)境中發(fā)揮作用所需的理化條件(如溫度、pH 值)大多與其原生生物環(huán)境相去甚遠。換言之,這一類蛋白質(zhì)的穩(wěn)定性難以適應(yīng)嚴酷的工業(yè)環(huán)境。因此,為了滿足不同應(yīng)用場景的需求,往往需要通過突變來改善蛋白質(zhì)的理化特性,從而提高其在極端溫度 / pH 值條件下的穩(wěn)定性,或是增加酶活性及特異性。需要注意的是,想要改變蛋白質(zhì)的生物活性需要對其工作機理進行長達數(shù)年的實驗研究,不僅耗時費力,同時也愈發(fā)難以滿足快速變化的改造需求。近年來,蛋白質(zhì)語言模型的出現(xiàn),雖然已經(jīng)極大地提高了蛋白質(zhì)適配性預(yù)測的準確度,但在其穩(wěn)定性預(yù)測精度上仍有欠缺。真正有意義的蛋白質(zhì)突變,應(yīng)該在提高穩(wěn)定性的同時,仍能保持其生物活性;反之亦然。針對于此,上海交通大學(xué)自然科學(xué)研究院/物理天文學(xué)院洪亮教授課題組聯(lián)合上海人工智能實驗室青年研究員談攀,以及上??萍即髮W(xué)和中科院杭州醫(yī)學(xué)院的合作者,共同開發(fā)出了一種新的蛋白質(zhì)序列大語言模型預(yù)訓(xùn)練方法 PRIME,同時在蛋白質(zhì)突變-活性和突變-穩(wěn)定性預(yù)測,以及其他溫度相關(guān)的表征學(xué)習(xí)上取得了最佳預(yù)測效果。相關(guān)研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」為題,已發(fā)表于知名期刊 Science 旗下的 Science Advances。研究亮點:* PRIME 能夠在不依賴提前實驗數(shù)據(jù)的情況下,預(yù)測特定蛋白質(zhì)突變體的性能改進* PRIME 能夠有效預(yù)測出一種蛋白質(zhì)的多種屬性,使得研究人員在不熟悉的蛋白質(zhì)領(lǐng)域也能獲取成功設(shè)計* PRIME 基于「溫度感知」語言模型進行訓(xùn)練,能夠更好地捕捉蛋白質(zhì)序列的溫度特征論文地址:https://www.science.org/doi/10.1126/sciadv.adr2641關(guān)注公眾號,后臺回復(fù)「溫度感知」獲取完整 PDF開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:https://github.com/hyperai/awesome-ai4s數(shù)據(jù)集:9,600萬條數(shù)據(jù),探索蛋白質(zhì)序列與溫度之間的關(guān)系通過整合 Uniprot (Universal Protein Resource) 的公開數(shù)據(jù),以及通過宏基因組學(xué)研究從環(huán)境樣本中獲得的蛋白質(zhì)序列,研究人員整理了一個包含 47 億條天然蛋白質(zhì)序列的大型數(shù)據(jù)庫 ProteomeAtlas。* UniProt 是一個提供蛋白質(zhì)序列和相關(guān)詳細注釋的大型數(shù)據(jù)庫。在序列篩選過程中,研究人員僅保留了完整長度的序列,并使用生物序列比對工具 MMseqs2 對這些序列進行處理,將序列同一性閾值設(shè)置為 50% 以減少冗余,進而識別并注釋與細菌菌株最佳生長溫度 (optimal growth temperatures, OGT) 相關(guān)的序列。最終,研究人員以這種方式注釋了 9,600 萬條蛋白質(zhì)序列,為探索蛋白質(zhì)序列與溫度之間的關(guān)系提供了豐富的資源。此外,在模型熱穩(wěn)定性 zero-shot 預(yù)測能力分析中,用于研究熔解溫度變化 (ΔTm) 的數(shù)據(jù)集來源于 MPTherm、FireProtDB 和 ProThermDB,并確保所有實驗均在相同的 pH 條件下進行。其中,MPTherm 包含與蛋白質(zhì)熱穩(wěn)定性相關(guān)的實驗數(shù)據(jù);FireProtDB 專門用于存儲與蛋白質(zhì)熱穩(wěn)定性及功能相關(guān)的突變實驗數(shù)據(jù);ProThermDB 專門收集與蛋白質(zhì)熱力學(xué)性質(zhì)相關(guān)的數(shù)據(jù)。同時,研究人員還結(jié)合了深度突變掃描 (DMS) 的數(shù)據(jù),主要來源于蛋白質(zhì)突變分析數(shù)據(jù)庫 ProteinGym。* ProteinGym 蛋白質(zhì)突變數(shù)據(jù)集https://go.hyper.ai/YlMT5模型架構(gòu):基于「溫度感知」的深度學(xué)習(xí)模型該研究所提出的新型深度學(xué)習(xí)模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction),能夠在不依賴提前實驗數(shù)據(jù)的情況下,預(yù)測特定蛋白質(zhì)突變體的性能改進。該模型基于「溫度感知」語言模型進行訓(xùn)練,依賴 9,600 萬蛋白質(zhì)序列的數(shù)據(jù)集,結(jié)合 token 層面的掩碼語言建模 (MLM) 任務(wù),和序列層面最優(yōu)生長溫度 (OGT) 預(yù)測目標(biāo),并通過多任務(wù)學(xué)習(xí)引入 correlation loss 項,能夠篩選出具備高溫耐受性的蛋白序列,以優(yōu)化其穩(wěn)定性和生物活性。具體而言,PRIME 由 3 個主要部分組成,如下圖所示。首先是編碼器模塊 (Encoder module),這是一個用于提取序列潛在特征的 Transformer 編碼器。第二個是 MLM 模塊,旨在幫助編碼器學(xué)習(xí)氨基酸的上下文表征。同時,MLM 模塊還可用于突變體評分。第三個組件是 OGT 預(yù)測模塊,它可以根據(jù)潛在表征預(yù)測蛋白質(zhì)所在生物體的 OGT。PRIME 的架構(gòu)設(shè)計PRIME 在預(yù)訓(xùn)練階段的多任務(wù)學(xué)習(xí)包括了 MLM、OGT 預(yù)測及 Correlation loss。其中,MLM 經(jīng)常被用作序列數(shù)據(jù)表征的預(yù)訓(xùn)練方法。在該研究中,噪聲蛋白質(zhì)序列作為輸入,部分標(biāo)記被屏蔽為或用替代標(biāo)記表示,訓(xùn)練目標(biāo)是重建這些噪聲標(biāo)記。這種方法有助于模型捕捉氨基酸之間的依賴關(guān)系以及序列的上下文信息,同時還可以利用這一重建過程對突變進行評分。第二個訓(xùn)練任務(wù)是在監(jiān)督條件下進行優(yōu)化,研究人員使用一個包含 9,600 萬個用 OGT 注釋的蛋白質(zhì)序列數(shù)據(jù)集來訓(xùn)練 PRIME 模型。該任務(wù)的輸入為蛋白質(zhì)序列 (protein sequence),OGT 模塊生成的溫度值范圍為 0° 至 100°C。值得注意的是,OGT 模塊和 MLM 模塊使用共享編碼器運行。這種結(jié)構(gòu)使模型能夠同時捕捉氨基酸上下文信息以及其中與溫度相關(guān)的序列特征。PRIME 在溫度預(yù)測中的應(yīng)用最后,研究人員引入了 Correlation loss,促進從預(yù)測的 OGT 到 MLM 分屬的反饋,對齊 token 和序列層面的任務(wù)信息,使得大模型更好地捕捉蛋白質(zhì)序列的溫度特征。實驗結(jié)論:在預(yù)測突變蛋白序列的適應(yīng)性方面優(yōu)于最先進方法研究人員通過實驗比較了 PRIME 與當(dāng)前最先進模型在熱穩(wěn)定性上的 zero-shot 預(yù)測能力,其中包括了深度學(xué)習(xí)模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及傳統(tǒng)計算方法 GEMME 和 Rosetta。研究人員使用了來自 MPTherm、FireProtDB 和 ProThermDB 的數(shù)據(jù)集,其中包含了在相同 pH 環(huán)境下收集的熔解溫度變化 (ΔTm),并確保每個蛋白質(zhì)至少有 10 個數(shù)據(jù)點,共有 66 項檢測。同時,該研究還納入了深度突變掃描 (DMS) 的檢測方法,將 ProteinGym 用作測試基準。結(jié)果如下圖所示,PRIME 在預(yù)測蛋白質(zhì)可用性和穩(wěn)定性方面的表現(xiàn)均優(yōu)于所有其他方法。在 ProteinGym 基準測試中(下圖中黃色),PRIME 的得分為 0.486,排名第二的 SaProt 得分為 0.457。在 ΔTm 數(shù)據(jù)集中(下圖中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分為 0.412。此外,研究人員還在 ProteinGym 的子數(shù)據(jù)集 ProteinGym-stability 中(下圖淺紫色)將 PRIME 與其他方法進行了比較,PRIME 仍然優(yōu)于所有其他方法。ΔTm 和 ProteinGym 數(shù)據(jù)集上的無監(jiān)督模型基準測試值得關(guān)注的是,為了檢測 PRIME 在蛋白質(zhì)工程實際應(yīng)用中的有效性及效果,研究人員還進行了濕實驗,選擇了 5 種蛋白質(zhì)進行驗證,包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一個特異性納米抗體的重鏈可變區(qū)。在 top 30-45 個單位點突變的實驗檢驗中,超過 30% 的 AI 推薦單點突變體在關(guān)鍵性能,如熱穩(wěn)定性、酶促活性、抗原-抗體結(jié)合親和力、非天然核酸聚合能力或者極端堿性條件下的耐受性等方面明顯優(yōu)于野生型蛋白,個別蛋白質(zhì)的陽性率超過 50%。PRIME 預(yù)測的 5 種蛋白質(zhì)單位點突變體的結(jié)構(gòu)和實驗結(jié)果值得一提的是,團隊還基于 PRIME 還展示了一種高效的方法,可快速獲得具備增強活性和穩(wěn)定性的多位點突變體。通過這種小樣本微調(diào)方法,在不到 100 個濕實驗樣本下,2-4 輪進化就能產(chǎn)生非常優(yōu)異的蛋白質(zhì)突變體。例如 T7 RNA 聚合酶經(jīng)過 4 輪干濕迭代,成功獲得了具有高活性和高穩(wěn)定性的多點突變體,最高的多點突變體 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分產(chǎn)品性能超越國際領(lǐng)先的生物科技公司 (New England Biolabs) 統(tǒng)治市場10年之久的同類產(chǎn)品。并且,在 LbCas12a、T7 RNA 聚合酶的實驗中,Pro-PRIME 能將陰性單點突變疊加得到陽性多點突變。這表明 PRIME 能夠從序列數(shù)據(jù)中學(xué)習(xí)到蛋白質(zhì)突變的上位效應(yīng),這對傳統(tǒng)蛋白質(zhì)工程意義重大。深耕蛋白質(zhì)工程,攻克小樣本難題在蛋白質(zhì)工程領(lǐng)域,蛋白質(zhì)的表達、純化和功能測試通常需要昂貴的試劑、儀器,且實驗耗時較長,這極大限制了可生成的樣本數(shù)量。在蛋白質(zhì)功能研究中,測試蛋白質(zhì)突變對功能(如催化活性、熱穩(wěn)定性、結(jié)合親和力等)的影響更加需要精確且復(fù)雜的實驗,很難通過一次性高通量測量所有可能突變的性能。這就使得機器學(xué)習(xí)模型難以在有限樣本上獲得足夠的訓(xùn)練,導(dǎo)致模型在預(yù)測新突變時表現(xiàn)不佳,加之小樣本數(shù)據(jù)中,實驗誤差或噪聲可能對模型訓(xùn)練造成更大的干擾。可以說,小樣本數(shù)據(jù)的挑戰(zhàn)在一定程度上限制了蛋白質(zhì)工程領(lǐng)域的研究效率及準確性。功過相伴,這也極大推動了研究人員探索創(chuàng)新技術(shù),結(jié)合機器學(xué)習(xí)、實驗技術(shù)和多模態(tài)數(shù)據(jù)分析等突破小樣本的限制。本文所述的研究團隊便在這方面表現(xiàn)突出,除了上文提到的 PRIME 外,洪亮教授團隊聯(lián)合談攀博士還曾面向小樣本學(xué)習(xí)發(fā)布多項成果。此前,該團隊綜合利用元遷移學(xué)習(xí) (meta-transfer learning, MTL)、排序?qū)W習(xí) (learning to rank, LTR) 和參數(shù)高效微調(diào) (parameter-efficient fine-tuning, PEFT),開發(fā)了一種能在數(shù)據(jù)極度匱乏的情況下,有效優(yōu)化蛋白質(zhì)語言模型的訓(xùn)練策略 FSFP,可用于蛋白質(zhì)適配性的小樣本學(xué)習(xí),在使用極少濕實驗數(shù)據(jù)的情況下,極大地提高傳統(tǒng)蛋白質(zhì)預(yù)訓(xùn)練大模型在突變-性質(zhì)預(yù)測的效果,在實際應(yīng)用中也顯示出了巨大的潛力。相關(guān)研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」為題,發(fā)表在 Nature 旗下 Nature Communications。*點擊查看詳細報道:20個實驗數(shù)據(jù)創(chuàng)造AI蛋白質(zhì)里程碑!上海交大聯(lián)合上海AI Lab發(fā)布FSFP,有效優(yōu)化蛋白質(zhì)預(yù)訓(xùn)練模型此外,洪亮教授也曾分享過相關(guān)觀點,他認為「未來 3 年,在蛋白設(shè)計、藥物研發(fā)、疾病診斷、新靶點發(fā)現(xiàn)、化學(xué)合成路徑設(shè)計以及材料設(shè)計等領(lǐng)域,專業(yè)領(lǐng)域的通用人工智能將帶來明確的范式變革,將過去依靠人腦零星試錯的科學(xué)發(fā)現(xiàn)模式,轉(zhuǎn)變?yōu)?AI 大模型自動化標(biāo)準設(shè)計模式」。具體變革包括了構(gòu)建零樣本或者小樣本學(xué)習(xí)方法,以及構(gòu)建預(yù)訓(xùn)練技術(shù)模型,在沒有數(shù)據(jù)的情況下,則通過物理模擬器產(chǎn)生精度略低的大量假數(shù)據(jù)來做預(yù)訓(xùn)練,再用真實珍貴的數(shù)據(jù)進行微調(diào),完成強化學(xué)習(xí)。洪教授強調(diào),「假數(shù)據(jù)指非真實世界的數(shù)據(jù),但有一定的可靠度,它可以是 AI 生成的,也可以是物理計算模擬得來進行數(shù)據(jù)增強,最后真實的濕實驗數(shù)據(jù)最為寶貴,用于模型的最終微調(diào)」。誠然,數(shù)據(jù)稀缺挑戰(zhàn)其實不僅存在于蛋白質(zhì)工程領(lǐng)域,小樣本、甚至是零樣本學(xué)習(xí)方法至關(guān)重要,期待洪亮教授團隊及談攀博士圍繞這一痛點帶來更多高質(zhì)量成果。最后,推薦一個學(xué)術(shù)活動!點擊圖片了解活動詳情 ↓往期推薦戳“閱讀原文”,免費獲取海量數(shù)據(jù)集資源!