Science:AI模擬5億年生物進化,創(chuàng)造了一種「前所未有」的蛋白質(zhì)
AI 突破自然進化的局限。
原標(biāo)題:Science:AI模擬5億年生物進化,創(chuàng)造了一種「前所未有」的蛋白質(zhì)
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):6152字
AI賦能蛋白質(zhì)設(shè)計:ESM3模型引領(lǐng)生物分子工程新時代
蛋白質(zhì)是生命的基礎(chǔ),其序列和結(jié)構(gòu)的演變歷經(jīng)數(shù)十億年。近年來,深度學(xué)習(xí)和語言模型的興起為理解和設(shè)計蛋白質(zhì)帶來了性的變革。Science雜志最新發(fā)表的研究成果展示了ESM3,一個多模態(tài)生成式模型,它能夠生成具有全新功能的蛋白質(zhì),甚至模擬超過5億年的進化過程。
1. ESM3模型:解碼生物語言
ESM3模型由人工智能初創(chuàng)公司Evolutionary Scale研發(fā),它利用超過31.5億條蛋白質(zhì)序列、2.36億個蛋白質(zhì)結(jié)構(gòu)以及5.39億個帶有功能注釋的蛋白質(zhì)數(shù)據(jù)進行訓(xùn)練。該模型擁有三種不同規(guī)模,參數(shù)量分別為14億、70億和980億。實驗結(jié)果表明,參數(shù)規(guī)模越大,ESM3在生成能力和表示學(xué)習(xí)上的性能越顯著,尤其是在生成蛋白質(zhì)結(jié)構(gòu)方面,980億參數(shù)的模型表現(xiàn)超越現(xiàn)有模型。
不同于傳統(tǒng)模型,ESM3是一個多模態(tài)生成模型,能夠同時處理蛋白質(zhì)的序列、三維結(jié)構(gòu)和功能信息。它采用“生成掩碼語言模型”方法,通過對輸入數(shù)據(jù)進行隨機掩碼并推理生成缺失部分,從而生成高質(zhì)量的蛋白質(zhì)序列和結(jié)構(gòu)。其生成結(jié)果與真實結(jié)構(gòu)的平均差異僅為0.5?。
2. 突破自然進化瓶頸:生成新型綠色熒光蛋白
為了展示ESM3的潛力,研究人員選擇綠色熒光蛋白(GFP)作為挑戰(zhàn)目標(biāo)。GFP在生物學(xué)研究中至關(guān)重要,但其自然突變通常局限于現(xiàn)有序列附近。ESM3則突破了這一瓶頸。研究人員通過提供GFP的關(guān)鍵氨基酸序列和三維結(jié)構(gòu)信息作為提示,引導(dǎo)ESM3生成一個與已知GFP序列差異巨大,但仍保持熒光特性的全新蛋白質(zhì)——esmGFP。
esmGFP與現(xiàn)有熒光蛋白的序列相似性僅為53%-58%,這意味著如果要通過自然進化獲得esmGFP,需要超過5億年的時間。實驗驗證表明,esmGFP盡管成熟時間較長,但最終的熒光亮度與已知GFP相似,具有穩(wěn)定的熒光特性。
3. ESM3的未來應(yīng)用與潛力
ESM3的多模態(tài)特性使其能夠根據(jù)特定的蛋白質(zhì)結(jié)構(gòu)、功能或關(guān)鍵氨基酸等提示生成滿足要求的新型蛋白質(zhì)。這種提示響應(yīng)能力和可控性使其在蛋白質(zhì)設(shè)計領(lǐng)域具有高度實用價值。ESM3能夠加速蛋白質(zhì)設(shè)計速度,生成自然界中難以獲得的新型蛋白質(zhì),這對于基礎(chǔ)研究和應(yīng)用研究都具有重要意義。
ESM3的應(yīng)用前景廣泛,包括藥物設(shè)計(設(shè)計具有特定靶點的蛋白質(zhì))、合成生物學(xué)(開發(fā)新的合成途徑)等。隨著模型規(guī)模和數(shù)據(jù)量的進一步增加,ESM3有潛力生成更加復(fù)雜和創(chuàng)新的蛋白質(zhì),為蛋白質(zhì)工程開辟全新的可能性。目前,ESM3已通過API推出公開測試版,方便科學(xué)家使用。
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化