Science:AI模擬5億年生物進(jìn)化,創(chuàng)造了一種「前所未有」的蛋白質(zhì)
AI 突破自然進(jìn)化的局限。
原標(biāo)題:Science:AI模擬5億年生物進(jìn)化,創(chuàng)造了一種「前所未有」的蛋白質(zhì)
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):6152字
AI賦能蛋白質(zhì)設(shè)計(jì):ESM3模型引領(lǐng)生物分子工程新時(shí)代
蛋白質(zhì)是生命的基礎(chǔ),其序列和結(jié)構(gòu)的演變歷經(jīng)數(shù)十億年。近年來,深度學(xué)習(xí)和語言模型的興起為理解和設(shè)計(jì)蛋白質(zhì)帶來了性的變革。Science雜志最新發(fā)表的研究成果展示了ESM3,一個(gè)多模態(tài)生成式模型,它能夠生成具有全新功能的蛋白質(zhì),甚至模擬超過5億年的進(jìn)化過程。
1. ESM3模型:解碼生物語言
ESM3模型由人工智能初創(chuàng)公司Evolutionary Scale研發(fā),它利用超過31.5億條蛋白質(zhì)序列、2.36億個(gè)蛋白質(zhì)結(jié)構(gòu)以及5.39億個(gè)帶有功能注釋的蛋白質(zhì)數(shù)據(jù)進(jìn)行訓(xùn)練。該模型擁有三種不同規(guī)模,參數(shù)量分別為14億、70億和980億。實(shí)驗(yàn)結(jié)果表明,參數(shù)規(guī)模越大,ESM3在生成能力和表示學(xué)習(xí)上的性能越顯著,尤其是在生成蛋白質(zhì)結(jié)構(gòu)方面,980億參數(shù)的模型表現(xiàn)超越現(xiàn)有模型。
不同于傳統(tǒng)模型,ESM3是一個(gè)多模態(tài)生成模型,能夠同時(shí)處理蛋白質(zhì)的序列、三維結(jié)構(gòu)和功能信息。它采用“生成掩碼語言模型”方法,通過對輸入數(shù)據(jù)進(jìn)行隨機(jī)掩碼并推理生成缺失部分,從而生成高質(zhì)量的蛋白質(zhì)序列和結(jié)構(gòu)。其生成結(jié)果與真實(shí)結(jié)構(gòu)的平均差異僅為0.5?。
2. 突破自然進(jìn)化瓶頸:生成新型綠色熒光蛋白
為了展示ESM3的潛力,研究人員選擇綠色熒光蛋白(GFP)作為挑戰(zhàn)目標(biāo)。GFP在生物學(xué)研究中至關(guān)重要,但其自然突變通常局限于現(xiàn)有序列附近。ESM3則突破了這一瓶頸。研究人員通過提供GFP的關(guān)鍵氨基酸序列和三維結(jié)構(gòu)信息作為提示,引導(dǎo)ESM3生成一個(gè)與已知GFP序列差異巨大,但仍保持熒光特性的全新蛋白質(zhì)——esmGFP。
esmGFP與現(xiàn)有熒光蛋白的序列相似性僅為53%-58%,這意味著如果要通過自然進(jìn)化獲得esmGFP,需要超過5億年的時(shí)間。實(shí)驗(yàn)驗(yàn)證表明,esmGFP盡管成熟時(shí)間較長,但最終的熒光亮度與已知GFP相似,具有穩(wěn)定的熒光特性。
3. ESM3的未來應(yīng)用與潛力
ESM3的多模態(tài)特性使其能夠根據(jù)特定的蛋白質(zhì)結(jié)構(gòu)、功能或關(guān)鍵氨基酸等提示生成滿足要求的新型蛋白質(zhì)。這種提示響應(yīng)能力和可控性使其在蛋白質(zhì)設(shè)計(jì)領(lǐng)域具有高度實(shí)用價(jià)值。ESM3能夠加速蛋白質(zhì)設(shè)計(jì)速度,生成自然界中難以獲得的新型蛋白質(zhì),這對于基礎(chǔ)研究和應(yīng)用研究都具有重要意義。
ESM3的應(yīng)用前景廣泛,包括藥物設(shè)計(jì)(設(shè)計(jì)具有特定靶點(diǎn)的蛋白質(zhì))、合成生物學(xué)(開發(fā)新的合成途徑)等。隨著模型規(guī)模和數(shù)據(jù)量的進(jìn)一步增加,ESM3有潛力生成更加復(fù)雜和創(chuàng)新的蛋白質(zhì),為蛋白質(zhì)工程開辟全新的可能性。目前,ESM3已通過API推出公開測試版,方便科學(xué)家使用。
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化