国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

登Science子刊！上海交大聯(lián)合上海AI Lab等發(fā)布蛋白質(zhì)突變體設(shè)計模型，優(yōu)于最先進方法

作者：李寶珠編輯：十九上海交通大合上海人工智能實驗室，以及上海科技大學(xué)和中科院杭州醫(yī)學(xué)院的合作者，共同開發(fā)出了一種新的蛋白質(zhì)序列大語言模型預(yù)訓(xùn)練方法 PRIME。蛋白質(zhì)不僅是人體生命活動的執(zhí)行者，同時也在生物醫(yī)藥、食品加工、釀造業(yè)、化工業(yè)等多領(lǐng)域發(fā)揮著重要作用。所以，人們從未停止圍繞蛋白質(zhì)結(jié)構(gòu)、功能等展開研究，為工業(yè)應(yīng)用場景遴選出符合需求、穩(wěn)定性高的蛋白質(zhì)。然而，從生物體中提取的「野生型」蛋白質(zhì)，在工業(yè)環(huán)境中發(fā)揮作用所需的理化條件（如溫度、pH 值）大多與其原生生物環(huán)境相去甚遠。換言之，這一類蛋白質(zhì)的穩(wěn)定性難以適應(yīng)嚴酷的工業(yè)環(huán)境。因此，為了滿足不同應(yīng)用場景的需求，往往需要通過突變來改善蛋白質(zhì)的理化特性，從而提高其在極端溫度 / pH 值條件下的穩(wěn)定性，或是增加酶活性及特異性。需要注意的是，想要改變蛋白質(zhì)的生物活性需要對其工作機理進行長達數(shù)年的實驗研究，不僅耗時費力，同時也愈發(fā)難以滿足快速變化的改造需求。近年來，蛋白質(zhì)語言模型的出現(xiàn)，雖然已經(jīng)極大地提高了蛋白質(zhì)適配性預(yù)測的準確度，但在其穩(wěn)定性預(yù)測精度上仍有欠缺。真正有意義的蛋白質(zhì)突變，應(yīng)該在提高穩(wěn)定性的同時，仍能保持其生物活性；反之亦然。針對于此，上海交通大學(xué)自然科學(xué)研究院/物理天文學(xué)院洪亮教授課題組聯(lián)合上海人工智能實驗室青年研究員談攀，以及上?？萍即髮W(xué)和中科院杭州醫(yī)學(xué)院的合作者，共同開發(fā)出了一種新的蛋白質(zhì)序列大語言模型預(yù)訓(xùn)練方法 PRIME，同時在蛋白質(zhì)突變-活性和突變-穩(wěn)定性預(yù)測，以及其他溫度相關(guān)的表征學(xué)習(xí)上取得了最佳預(yù)測效果。相關(guān)研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」為題，已發(fā)表于知名期刊 Science 旗下的 Science Advances。研究亮點：* PRIME 能夠在不依賴提前實驗數(shù)據(jù)的情況下，預(yù)測特定蛋白質(zhì)突變體的性能改進* PRIME 能夠有效預(yù)測出一種蛋白質(zhì)的多種屬性，使得研究人員在不熟悉的蛋白質(zhì)領(lǐng)域也能獲取成功設(shè)計* PRIME 基于「溫度感知」語言模型進行訓(xùn)練，能夠更好地捕捉蛋白質(zhì)序列的溫度特征論文地址：https://www.science.org/doi/10.1126/sciadv.adr2641關(guān)注公眾號，后臺回復(fù)「溫度感知」獲取完整 PDF開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀，并提供海量數(shù)據(jù)集與工具：https://github.com/hyperai/awesome-ai4s數(shù)據(jù)集：9，600萬條數(shù)據(jù)，探索蛋白質(zhì)序列與溫度之間的關(guān)系通過整合 Uniprot (Universal Protein Resource) 的公開數(shù)據(jù)，以及通過宏基因組學(xué)研究從環(huán)境樣本中獲得的蛋白質(zhì)序列，研究人員整理了一個包含 47 億條天然蛋白質(zhì)序列的大型數(shù)據(jù)庫 ProteomeAtlas。* UniProt 是一個提供蛋白質(zhì)序列和相關(guān)詳細注釋的大型數(shù)據(jù)庫。在序列篩選過程中，研究人員僅保留了完整長度的序列，并使用生物序列比對工具 MMseqs2 對這些序列進行處理，將序列同一性閾值設(shè)置為 50% 以減少冗余，進而識別并注釋與細菌菌株最佳生長溫度 (optimal growth temperatures， OGT) 相關(guān)的序列。最終，研究人員以這種方式注釋了 9，600 萬條蛋白質(zhì)序列，為探索蛋白質(zhì)序列與溫度之間的關(guān)系提供了豐富的資源。此外，在模型熱穩(wěn)定性 zero-shot 預(yù)測能力分析中，用于研究熔解溫度變化 (ΔTm) 的數(shù)據(jù)集來源于 MPTherm、FireProtDB 和 ProThermDB，并確保所有實驗均在相同的 pH 條件下進行。其中，MPTherm 包含與蛋白質(zhì)熱穩(wěn)定性相關(guān)的實驗數(shù)據(jù)；FireProtDB 專門用于存儲與蛋白質(zhì)熱穩(wěn)定性及功能相關(guān)的突變實驗數(shù)據(jù)；ProThermDB 專門收集與蛋白質(zhì)熱力學(xué)性質(zhì)相關(guān)的數(shù)據(jù)。同時，研究人員還結(jié)合了深度突變掃描 (DMS) 的數(shù)據(jù)，主要來源于蛋白質(zhì)突變分析數(shù)據(jù)庫 ProteinGym。* ProteinGym 蛋白質(zhì)突變數(shù)據(jù)集https://go.hyper.ai/YlMT5模型架構(gòu)：基于「溫度感知」的深度學(xué)習(xí)模型該研究所提出的新型深度學(xué)習(xí)模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction)，能夠在不依賴提前實驗數(shù)據(jù)的情況下，預(yù)測特定蛋白質(zhì)突變體的性能改進。該模型基于「溫度感知」語言模型進行訓(xùn)練，依賴 9，600 萬蛋白質(zhì)序列的數(shù)據(jù)集，結(jié)合 token 層面的掩碼語言建模 (MLM) 任務(wù)，和序列層面最優(yōu)生長溫度 (OGT) 預(yù)測目標(biāo)，并通過多任務(wù)學(xué)習(xí)引入 correlation loss 項，能夠篩選出具備高溫耐受性的蛋白序列，以優(yōu)化其穩(wěn)定性和生物活性。具體而言，PRIME 由 3 個主要部分組成，如下圖所示。首先是編碼器模塊 (Encoder module)，這是一個用于提取序列潛在特征的 Transformer 編碼器。第二個是 MLM 模塊，旨在幫助編碼器學(xué)習(xí)氨基酸的上下文表征。同時，MLM 模塊還可用于突變體評分。第三個組件是 OGT 預(yù)測模塊，它可以根據(jù)潛在表征預(yù)測蛋白質(zhì)所在生物體的 OGT。PRIME 的架構(gòu)設(shè)計PRIME 在預(yù)訓(xùn)練階段的多任務(wù)學(xué)習(xí)包括了 MLM、OGT 預(yù)測及 Correlation loss。其中，MLM 經(jīng)常被用作序列數(shù)據(jù)表征的預(yù)訓(xùn)練方法。在該研究中，噪聲蛋白質(zhì)序列作為輸入，部分標(biāo)記被屏蔽為或用替代標(biāo)記表示，訓(xùn)練目標(biāo)是重建這些噪聲標(biāo)記。這種方法有助于模型捕捉氨基酸之間的依賴關(guān)系以及序列的上下文信息，同時還可以利用這一重建過程對突變進行評分。第二個訓(xùn)練任務(wù)是在監(jiān)督條件下進行優(yōu)化，研究人員使用一個包含 9，600 萬個用 OGT 注釋的蛋白質(zhì)序列數(shù)據(jù)集來訓(xùn)練 PRIME 模型。該任務(wù)的輸入為蛋白質(zhì)序列 (protein sequence)，OGT 模塊生成的溫度值范圍為 0° 至 100°C。值得注意的是，OGT 模塊和 MLM 模塊使用共享編碼器運行。這種結(jié)構(gòu)使模型能夠同時捕捉氨基酸上下文信息以及其中與溫度相關(guān)的序列特征。PRIME 在溫度預(yù)測中的應(yīng)用最后，研究人員引入了 Correlation loss，促進從預(yù)測的 OGT 到 MLM 分屬的反饋，對齊 token 和序列層面的任務(wù)信息，使得大模型更好地捕捉蛋白質(zhì)序列的溫度特征。實驗結(jié)論：在預(yù)測突變蛋白序列的適應(yīng)性方面優(yōu)于最先進方法研究人員通過實驗比較了 PRIME 與當(dāng)前最先進模型在熱穩(wěn)定性上的 zero-shot 預(yù)測能力，其中包括了深度學(xué)習(xí)模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle，以及傳統(tǒng)計算方法 GEMME 和 Rosetta。研究人員使用了來自 MPTherm、FireProtDB 和 ProThermDB 的數(shù)據(jù)集，其中包含了在相同 pH 環(huán)境下收集的熔解溫度變化 (ΔTm)，并確保每個蛋白質(zhì)至少有 10 個數(shù)據(jù)點，共有 66 項檢測。同時，該研究還納入了深度突變掃描 (DMS) 的檢測方法，將 ProteinGym 用作測試基準。結(jié)果如下圖所示，PRIME 在預(yù)測蛋白質(zhì)可用性和穩(wěn)定性方面的表現(xiàn)均優(yōu)于所有其他方法。在 ProteinGym 基準測試中（下圖中黃色），PRIME 的得分為 0.486，排名第二的 SaProt 得分為 0.457。在 ΔTm 數(shù)據(jù)集中（下圖中深紫色），PRIME 仍然以 0.437 的得分位居榜首，第二名的得分為 0.412。此外，研究人員還在 ProteinGym 的子數(shù)據(jù)集 ProteinGym-stability 中（下圖淺紫色）將 PRIME 與其他方法進行了比較，PRIME 仍然優(yōu)于所有其他方法。ΔTm 和 ProteinGym 數(shù)據(jù)集上的無監(jiān)督模型基準測試值得關(guān)注的是，為了檢測 PRIME 在蛋白質(zhì)工程實際應(yīng)用中的有效性及效果，研究人員還進行了濕實驗，選擇了 5 種蛋白質(zhì)進行驗證，包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶，以及一個特異性納米抗體的重鏈可變區(qū)。在 top 30-45 個單位點突變的實驗檢驗中，超過 30% 的 AI 推薦單點突變體在關(guān)鍵性能，如熱穩(wěn)定性、酶促活性、抗原-抗體結(jié)合親和力、非天然核酸聚合能力或者極端堿性條件下的耐受性等方面明顯優(yōu)于野生型蛋白，個別蛋白質(zhì)的陽性率超過 50%。PRIME 預(yù)測的 5 種蛋白質(zhì)單位點突變體的結(jié)構(gòu)和實驗結(jié)果值得一提的是，團隊還基于 PRIME 還展示了一種高效的方法，可快速獲得具備增強活性和穩(wěn)定性的多位點突變體。通過這種小樣本微調(diào)方法，在不到 100 個濕實驗樣本下，2-4 輪進化就能產(chǎn)生非常優(yōu)異的蛋白質(zhì)突變體。例如 T7 RNA 聚合酶經(jīng)過 4 輪干濕迭代，成功獲得了具有高活性和高穩(wěn)定性的多點突變體，最高的多點突變體 Tm 高出野生型 12.8℃，活性是野生的近 4 倍，且部分產(chǎn)品性能超越國際領(lǐng)先的生物科技公司 (New England Biolabs) 統(tǒng)治市場10年之久的同類產(chǎn)品。并且，在 LbCas12a、T7 RNA 聚合酶的實驗中，Pro-PRIME 能將陰性單點突變疊加得到陽性多點突變。這表明 PRIME 能夠從序列數(shù)據(jù)中學(xué)習(xí)到蛋白質(zhì)突變的上位效應(yīng)，這對傳統(tǒng)蛋白質(zhì)工程意義重大。深耕蛋白質(zhì)工程，攻克小樣本難題在蛋白質(zhì)工程領(lǐng)域，蛋白質(zhì)的表達、純化和功能測試通常需要昂貴的試劑、儀器，且實驗耗時較長，這極大限制了可生成的樣本數(shù)量。在蛋白質(zhì)功能研究中，測試蛋白質(zhì)突變對功能（如催化活性、熱穩(wěn)定性、結(jié)合親和力等）的影響更加需要精確且復(fù)雜的實驗，很難通過一次性高通量測量所有可能突變的性能。這就使得機器學(xué)習(xí)模型難以在有限樣本上獲得足夠的訓(xùn)練，導(dǎo)致模型在預(yù)測新突變時表現(xiàn)不佳，加之小樣本數(shù)據(jù)中，實驗誤差或噪聲可能對模型訓(xùn)練造成更大的干擾。可以說，小樣本數(shù)據(jù)的挑戰(zhàn)在一定程度上限制了蛋白質(zhì)工程領(lǐng)域的研究效率及準確性。功過相伴，這也極大推動了研究人員探索創(chuàng)新技術(shù)，結(jié)合機器學(xué)習(xí)、實驗技術(shù)和多模態(tài)數(shù)據(jù)分析等突破小樣本的限制。本文所述的研究團隊便在這方面表現(xiàn)突出，除了上文提到的 PRIME 外，洪亮教授團隊聯(lián)合談攀博士還曾面向小樣本學(xué)習(xí)發(fā)布多項成果。此前，該團隊綜合利用元遷移學(xué)習(xí) (meta-transfer learning， MTL)、排序?qū)W習(xí) (learning to rank， LTR) 和參數(shù)高效微調(diào) (parameter-efficient fine-tuning， PEFT)，開發(fā)了一種能在數(shù)據(jù)極度匱乏的情況下，有效優(yōu)化蛋白質(zhì)語言模型的訓(xùn)練策略 FSFP，可用于蛋白質(zhì)適配性的小樣本學(xué)習(xí)，在使用極少濕實驗數(shù)據(jù)的情況下，極大地提高傳統(tǒng)蛋白質(zhì)預(yù)訓(xùn)練大模型在突變-性質(zhì)預(yù)測的效果，在實際應(yīng)用中也顯示出了巨大的潛力。相關(guān)研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」為題，發(fā)表在 Nature 旗下 Nature Communications。*點擊查看詳細報道：20個實驗數(shù)據(jù)創(chuàng)造AI蛋白質(zhì)里程碑！上海交大聯(lián)合上海AI Lab發(fā)布FSFP，有效優(yōu)化蛋白質(zhì)預(yù)訓(xùn)練模型此外，洪亮教授也曾分享過相關(guān)觀點，他認為「未來 3 年，在蛋白設(shè)計、藥物研發(fā)、疾病診斷、新靶點發(fā)現(xiàn)、化學(xué)合成路徑設(shè)計以及材料設(shè)計等領(lǐng)域，專業(yè)領(lǐng)域的通用人工智能將帶來明確的范式變革，將過去依靠人腦零星試錯的科學(xué)發(fā)現(xiàn)模式，轉(zhuǎn)變?yōu)?AI 大模型自動化標(biāo)準設(shè)計模式」。具體變革包括了構(gòu)建零樣本或者小樣本學(xué)習(xí)方法，以及構(gòu)建預(yù)訓(xùn)練技術(shù)模型，在沒有數(shù)據(jù)的情況下，則通過物理模擬器產(chǎn)生精度略低的大量假數(shù)據(jù)來做預(yù)訓(xùn)練，再用真實珍貴的數(shù)據(jù)進行微調(diào)，完成強化學(xué)習(xí)。洪教授強調(diào)，「假數(shù)據(jù)指非真實世界的數(shù)據(jù)，但有一定的可靠度，它可以是 AI 生成的，也可以是物理計算模擬得來進行數(shù)據(jù)增強，最后真實的濕實驗數(shù)據(jù)最為寶貴，用于模型的最終微調(diào)」。誠然，數(shù)據(jù)稀缺挑戰(zhàn)其實不僅存在于蛋白質(zhì)工程領(lǐng)域，小樣本、甚至是零樣本學(xué)習(xí)方法至關(guān)重要，期待洪亮教授團隊及談攀博士圍繞這一痛點帶來更多高質(zhì)量成果。最后，推薦一個學(xué)術(shù)活動！點擊圖片了解活動詳情 ↓往期推薦戳“閱讀原文”，免費獲取海量數(shù)據(jù)集資源！

閱讀原文