LeCun轉發,UC伯克利等提出多模態蛋白質生成方法PLAID,同時生成序列和全原子蛋白結構
該方法可用于任何蛋白質預測模型
原標題:LeCun轉發,UC伯克利等提出多模態蛋白質生成方法PLAID,同時生成序列和全原子蛋白結構
文章來源:HyperAI超神經
內容字數:8320字
加州大學伯克利分校等機構提出新型多模態蛋白質生成方法PLAID
本文介紹了加州大學伯克利分校、微軟研究院等機構提出的一種新型多模態蛋白質生成方法PLAID (Protein Latent Induced Diffusion),該方法能夠從序列等豐富數據模態生成稀缺的模態,例如晶體結構,從而實現對蛋白質全原子結構的生成。這項研究成果已提交至ICLR 2025,并獲得了“AI教父”楊立昆的轉發。
研究背景與挑戰
蛋白質的功能由其結構決定,包括原子身份、位置和生物物理性質等。全原子結構生成需要同時生成序列和結構,但現有方法通常將兩者視為模態,存在諸多局限性,例如僅生成主鏈原子,或需在結構預測和反折疊步驟之間交替進行。
PLAID方法概述
PLAID 是一種基于擴散模型的多模態蛋白質生成方法。它利用預訓練的蛋白質語言模型ESMFold的潛在空間,通過擴散過程學習序列和結構的聯合嵌入,最終實現從序列信息生成全原子結構。該方法在訓練過程中僅需要序列輸入,并利用了預訓練權重中編碼的結構信息。
PLAID方法主要包含四個步驟:1. ESMFold潛在空間表示;2. 潛在擴散訓練;3. 推理階段的序列和結構生成;4. 基于擴散變換器(DiT)的模型架構,融合條件信息進行可控生成。
實驗結果與分析
研究人員使用Pfam數據庫進行實驗,結果表明PLAID生成的蛋白質結構具有較高的質量和一致性,并且在不同蛋白質長度上保持穩定。與其他基準方法相比,PLAID在結構質量、多樣性、新穎性和跨模態一致性方面均表現出色。其生成的二級結構多樣性也更接近天然蛋白質的分布。
Diffusion Transformer(DiT)的應用
PLAID采用Diffusion Transformer(DiT)執行去噪任務,利用其全局自注意力機制有效建模序列和結構的復雜交互關系。DiT在圖像和視頻生成領域已取得顯著進展,在生物醫藥領域應用也日益廣泛,能夠提高蛋白質結構預測的效率和精度。
未來展望與相關研究
PLAID的成功為蛋白質定制化設計提供了新的可能性,推動了人工智能在蛋白質研究領域的應用。文章還簡要介紹了其他相關的研究進展,例如MProt-DPO和PocketGen,這些研究都為蛋白質設計和工程提供了新的工具和方法。
總而言之,PLAID方法為蛋白質結構生成提供了一種高效、準確且可控的新途徑,有望推動蛋白質設計和藥物研發等領域的進步。
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例