原標題:AI模擬5億年生物進化,ESM3開啟「蛋白質創世紀」!論文登上Science
文章來源:新智元
內容字數:6227字
AI模擬5億年生物進化,生成全新蛋白質:Science期刊重磅研究
Science期刊近期發表了一項重磅研究,人工智能初創公司Evolutionary Scale研發了一個名為ESM3的多模態生成式模型,成功模擬了超過5億年的生物進化過程,并生成了與自然界已知蛋白序列不同的全新蛋白質,為蛋白質設計和藥物開發開辟了新路徑。
1. ESM3模型:解碼生物語言,生成新型蛋白質
ESM3模型利用深度學習技術,學習了超過31.5億條蛋白質序列、2.36億個蛋白質結構以及5.39億個帶有功能注釋的蛋白質數據。該模型采用“生成掩碼語言模型”方法,能夠處理蛋白質的序列、三維結構和功能信息,并生成高質量的蛋白質序列和結構。其生成結果與真實結構的平均差異僅為0.5?。不同規模的ESM3模型(14億、70億和980億參數)在生成能力和表示學習上均展現出顯著提升,尤其是在生成蛋白質結構方面,980億參數的模型表現最佳。
2. 突破自然進化瓶頸,生成新型綠色熒光蛋白
研究人員利用ESM3模型設計了一個新的綠色熒光蛋白(esmGFP),其序列與已知熒光蛋白差異巨大,序列相似性僅為53%。如果通過天然熒光蛋白的生物進化獲得該蛋白,需要超過5億年的時間。esmGFP雖然發光特性有所延遲,但最終的熒光亮度與已知綠色熒光蛋白相似,且具有穩定的熒光特性,證明了ESM3模型在生成具有特定功能全新蛋白質方面的巨大潛力。
3. ESM3模型的多模態生成和控制能力
ESM3模型的顯著特點在于其多模態生成和控制能力。研究人員可以通過提示特定的蛋白質結構、功能或關鍵氨基酸,生成滿足特定條件的新型蛋白質。例如,模型可以生成具有特定功能位點的蛋白質,同時保持整體結構的完整性。這種提示響應能力和可控特性,使得ESM3在蛋白質設計領域具有高度實用價值。
4. ESM3模型的未來應用前景
ESM3模型的應用前景廣泛,它能夠大大加速蛋白質設計的速度,并生成在自然界中無法輕易獲得的新蛋白質。這對于基礎研究和應用研究,例如蛋白質工程、合成生物學和藥物開發等領域都是巨大的突破。在藥物設計領域,ESM3可以幫助設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本;在合成生物學領域,它可以幫助開發新的合成途徑,生成具備新功能的酶或代謝途徑。隨著模型規模和數據量的進一步增加,ESM3有潛力生成更加復雜和創新的蛋白質,為蛋白質工程開辟全新的可能性。目前,ESM3已通過API推出公開測試版,方便科學家使用。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。