<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        登Science子刊!上海交大聯合上海AI Lab等發布蛋白質突變體設計模型,優于最先進方法

        作者:李寶珠編輯:十九上海交通大合上海人工智能實驗室,以及上海科技大學和中科院杭州醫學院的合作者,共同開發出了一種新的蛋白質序列大語言模型預訓練方法 PRIME。蛋白質不僅是人體生命活動的執行者,同時也在生物醫藥、食品加工、釀造業、化工業等多領域發揮著重要作用。所以,人們從未停止圍繞蛋白質結構、功能等展開研究,為工業應用場景遴選出符合需求、穩定性高的蛋白質。然而,從生物體中提取的「野生型」蛋白質,在工業環境中發揮作用所需的理化條件(如溫度、pH 值)大多與其原生生物環境相去甚遠。換言之,這一類蛋白質的穩定性難以適應嚴酷的工業環境。因此,為了滿足不同應用場景的需求,往往需要通過突變來改善蛋白質的理化特性,從而提高其在極端溫度 / pH 值條件下的穩定性,或是增加酶活性及特異性。需要注意的是,想要改變蛋白質的生物活性需要對其工作機理進行長達數年的實驗研究,不僅耗時費力,同時也愈發難以滿足快速變化的改造需求。近年來,蛋白質語言模型的出現,雖然已經極大地提高了蛋白質適配性預測的準確度,但在其穩定性預測精度上仍有欠缺。真正有意義的蛋白質突變,應該在提高穩定性的同時,仍能保持其生物活性;反之亦然。針對于此,上海交通大學自然科學研究院/物理天文學院洪亮教授課題組聯合上海人工智能實驗室青年研究員談攀,以及上海科技大學和中科院杭州醫學院的合作者,共同開發出了一種新的蛋白質序列大語言模型預訓練方法 PRIME,同時在蛋白質突變-活性和突變-穩定性預測,以及其他溫度相關的表征學習上取得了最佳預測效果。相關研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」為題,已發表于知名期刊 Science 旗下的 Science Advances。研究亮點:* PRIME 能夠在不依賴提前實驗數據的情況下,預測特定蛋白質突變體的性能改進* PRIME 能夠有效預測出一種蛋白質的多種屬性,使得研究人員在不熟悉的蛋白質領域也能獲取成功設計* PRIME 基于「溫度感知」語言模型進行訓練,能夠更好地捕捉蛋白質序列的溫度特征論文地址:https://www.science.org/doi/10.1126/sciadv.adr2641關注公眾號,后臺回復「溫度感知」獲取完整 PDF開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數據集與工具:https://github.com/hyperai/awesome-ai4s數據集:9,600萬條數據,探索蛋白質序列與溫度之間的關系通過整合 Uniprot (Universal Protein Resource) 的公開數據,以及通過宏基因組學研究從環境樣本中獲得的蛋白質序列,研究人員整理了一個包含 47 億條天然蛋白質序列的大型數據庫 ProteomeAtlas。* UniProt 是一個提供蛋白質序列和相關詳細注釋的大型數據庫。在序列篩選過程中,研究人員僅保留了完整長度的序列,并使用生物序列比對工具 MMseqs2 對這些序列進行處理,將序列同一性閾值設置為 50% 以減少冗余,進而識別并注釋與細菌菌株最佳生長溫度 (optimal growth temperatures, OGT) 相關的序列。最終,研究人員以這種方式注釋了 9,600 萬條蛋白質序列,為探索蛋白質序列與溫度之間的關系提供了豐富的資源。此外,在模型熱穩定性 zero-shot 預測能力分析中,用于研究熔解溫度變化 (ΔTm) 的數據集來源于 MPTherm、FireProtDB 和 ProThermDB,并確保所有實驗均在相同的 pH 條件下進行。其中,MPTherm 包含與蛋白質熱穩定性相關的實驗數據;FireProtDB 專門用于存儲與蛋白質熱穩定性及功能相關的突變實驗數據;ProThermDB 專門收集與蛋白質熱力學性質相關的數據。同時,研究人員還結合了深度突變掃描 (DMS) 的數據,主要來源于蛋白質突變分析數據庫 ProteinGym。* ProteinGym 蛋白質突變數據集https://go.hyper.ai/YlMT5模型架構:基于「溫度感知」的深度學習模型該研究所提出的新型深度學習模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction),能夠在不依賴提前實驗數據的情況下,預測特定蛋白質突變體的性能改進。該模型基于「溫度感知」語言模型進行訓練,依賴 9,600 萬蛋白質序列的數據集,結合 token 層面的掩碼語言建模 (MLM) 任務,和序列層面最優生長溫度 (OGT) 預測目標,并通過多任務學習引入 correlation loss 項,能夠篩選出具備高溫耐受性的蛋白序列,以優化其穩定性和生物活性。具體而言,PRIME 由 3 個主要部分組成,如下圖所示。首先是編碼器模塊 (Encoder module),這是一個用于提取序列潛在特征的 Transformer 編碼器。第二個是 MLM 模塊,旨在幫助編碼器學習氨基酸的上下文表征。同時,MLM 模塊還可用于突變體評分。第三個組件是 OGT 預測模塊,它可以根據潛在表征預測蛋白質所在生物體的 OGT。PRIME 的架構設計PRIME 在預訓練階段的多任務學習包括了 MLM、OGT 預測及 Correlation loss。其中,MLM 經常被用作序列數據表征的預訓練方法。在該研究中,噪聲蛋白質序列作為輸入,部分標記被屏蔽為或用替代標記表示,訓練目標是重建這些噪聲標記。這種方法有助于模型捕捉氨基酸之間的依賴關系以及序列的上下文信息,同時還可以利用這一重建過程對突變進行評分。第二個訓練任務是在監督條件下進行優化,研究人員使用一個包含 9,600 萬個用 OGT 注釋的蛋白質序列數據集來訓練 PRIME 模型。該任務的輸入為蛋白質序列 (protein sequence),OGT 模塊生成的溫度值范圍為 0° 至 100°C。值得注意的是,OGT 模塊和 MLM 模塊使用共享編碼器運行。這種結構使模型能夠同時捕捉氨基酸上下文信息以及其中與溫度相關的序列特征。PRIME 在溫度預測中的應用最后,研究人員引入了 Correlation loss,促進從預測的 OGT 到 MLM 分屬的反饋,對齊 token 和序列層面的任務信息,使得大模型更好地捕捉蛋白質序列的溫度特征。實驗結論:在預測突變蛋白序列的適應性方面優于最先進方法研究人員通過實驗比較了 PRIME 與當前最先進模型在熱穩定性上的 zero-shot 預測能力,其中包括了深度學習模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及傳統計算方法 GEMME 和 Rosetta。研究人員使用了來自 MPTherm、FireProtDB 和 ProThermDB 的數據集,其中包含了在相同 pH 環境下收集的熔解溫度變化 (ΔTm),并確保每個蛋白質至少有 10 個數據點,共有 66 項檢測。同時,該研究還納入了深度突變掃描 (DMS) 的檢測方法,將 ProteinGym 用作測試基準。結果如下圖所示,PRIME 在預測蛋白質可用性和穩定性方面的表現均優于所有其他方法。在 ProteinGym 基準測試中(下圖中黃色),PRIME 的得分為 0.486,排名第二的 SaProt 得分為 0.457。在 ΔTm 數據集中(下圖中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分為 0.412。此外,研究人員還在 ProteinGym 的子數據集 ProteinGym-stability 中(下圖淺紫色)將 PRIME 與其他方法進行了比較,PRIME 仍然優于所有其他方法。ΔTm 和 ProteinGym 數據集上的無監督模型基準測試值得關注的是,為了檢測 PRIME 在蛋白質工程實際應用中的有效性及效果,研究人員還進行了濕實驗,選擇了 5 種蛋白質進行驗證,包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一個特異性納米抗體的重鏈可變區。在 top 30-45 個單位點突變的實驗檢驗中,超過 30% 的 AI 推薦單點突變體在關鍵性能,如熱穩定性、酶促活性、抗原-抗體結合親和力、非天然核酸聚合能力或者極端堿性條件下的耐受性等方面明顯優于野生型蛋白,個別蛋白質的陽性率超過 50%。PRIME 預測的 5 種蛋白質單位點突變體的結構和實驗結果值得一提的是,團隊還基于 PRIME 還展示了一種高效的方法,可快速獲得具備增強活性和穩定性的多位點突變體。通過這種小樣本微調方法,在不到 100 個濕實驗樣本下,2-4 輪進化就能產生非常優異的蛋白質突變體。例如 T7 RNA 聚合酶經過 4 輪干濕迭代,成功獲得了具有高活性和高穩定性的多點突變體,最高的多點突變體 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分產品性能超越國際領先的生物科技公司 (New England Biolabs) 統治市場10年之久的同類產品。并且,在 LbCas12a、T7 RNA 聚合酶的實驗中,Pro-PRIME 能將陰性單點突變疊加得到陽性多點突變。這表明 PRIME 能夠從序列數據中學習到蛋白質突變的上位效應,這對傳統蛋白質工程意義重大。深耕蛋白質工程,攻克小樣本難題在蛋白質工程領域,蛋白質的表達、純化和功能測試通常需要昂貴的試劑、儀器,且實驗耗時較長,這極大限制了可生成的樣本數量。在蛋白質功能研究中,測試蛋白質突變對功能(如催化活性、熱穩定性、結合親和力等)的影響更加需要精確且復雜的實驗,很難通過一次性高通量測量所有可能突變的性能。這就使得機器學習模型難以在有限樣本上獲得足夠的訓練,導致模型在預測新突變時表現不佳,加之小樣本數據中,實驗誤差或噪聲可能對模型訓練造成更大的干擾。可以說,小樣本數據的挑戰在一定程度上限制了蛋白質工程領域的研究效率及準確性。功過相伴,這也極大推動了研究人員探索創新技術,結合機器學習、實驗技術和多模態數據分析等突破小樣本的限制。本文所述的研究團隊便在這方面表現突出,除了上文提到的 PRIME 外,洪亮教授團隊聯合談攀博士還曾面向小樣本學習發布多項成果。此前,該團隊綜合利用元遷移學習 (meta-transfer learning, MTL)、排序學習 (learning to rank, LTR) 和參數高效微調 (parameter-efficient fine-tuning, PEFT),開發了一種能在數據極度匱乏的情況下,有效優化蛋白質語言模型的訓練策略 FSFP,可用于蛋白質適配性的小樣本學習,在使用極少濕實驗數據的情況下,極大地提高傳統蛋白質預訓練大模型在突變-性質預測的效果,在實際應用中也顯示出了巨大的潛力。相關研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」為題,發表在 Nature 旗下 Nature Communications。*點擊查看詳細報道:20個實驗數據創造AI蛋白質里程碑!上海交大聯合上海AI Lab發布FSFP,有效優化蛋白質預訓練模型此外,洪亮教授也曾分享過相關觀點,他認為「未來 3 年,在蛋白設計、藥物研發、疾病診斷、新靶點發現、化學合成路徑設計以及材料設計等領域,專業領域的通用人工智能將帶來明確的范式變革,將過去依靠人腦零星試錯的科學發現模式,轉變為 AI 大模型自動化標準設計模式」。具體變革包括了構建零樣本或者小樣本學習方法,以及構建預訓練技術模型,在沒有數據的情況下,則通過物理模擬器產生精度略低的大量假數據來做預訓練,再用真實珍貴的數據進行微調,完成強化學習。洪教授強調,「假數據指非真實世界的數據,但有一定的可靠度,它可以是 AI 生成的,也可以是物理計算模擬得來進行數據增強,最后真實的濕實驗數據最為寶貴,用于模型的最終微調」。誠然,數據稀缺挑戰其實不僅存在于蛋白質工程領域,小樣本、甚至是零樣本學習方法至關重要,期待洪亮教授團隊及談攀博士圍繞這一痛點帶來更多高質量成果。最后,推薦一個學術活動!點擊圖片了解活動詳情 ↓往期推薦戳“閱讀原文”,免費獲取海量數據集資源!

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人精品久久免费动漫| 一级特黄特色的免费大片视频| 日韩免费无码一区二区三区| 国产亚洲精久久久久久无码77777 国产亚洲精品成人AA片新蒲金 | 免费一级一片一毛片| 亚洲高清一区二区三区电影| 黄网址在线永久免费观看| 亚洲av永久无码精品秋霞电影秋| 日韩中文无码有码免费视频 | 亚洲精品国产肉丝袜久久| 最近免费中文字幕mv在线电影| 亚洲欧洲高清有无| 一色屋成人免费精品网站| 亚洲精品国产精品| 亚洲av片一区二区三区| 中文字幕乱码免费看电影| 77777_亚洲午夜久久多人| 国产情侣激情在线视频免费看| 亚洲成_人网站图片| 国产免费人视频在线观看免费 | 久久精品成人免费观看| 亚洲精品线在线观看| 成人免费午夜无码视频| 日韩亚洲翔田千里在线| 亚洲综合色自拍一区| 96免费精品视频在线观看| 国产精品亚洲午夜一区二区三区| 国产精品久久香蕉免费播放| 国产一级a毛一级a看免费人娇| 亚洲第一页在线观看| 免费国产高清视频| 免费观看久久精彩视频| 亚洲爆乳无码专区www| 亚洲日韩欧洲乱码AV夜夜摸| 成人午夜免费福利视频| 日韩成人毛片高清视频免费看| 亚洲精品国产肉丝袜久久| 亚洲国产成人精品女人久久久| 91精品免费观看| 黄色毛片视频免费| 亚洲性无码av在线|