模擬5億年的進化信息，首個同時推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型

AIGC動態(tài)1年前 (2024)發(fā)布人工智能學(xué)家

AIGC動態(tài)歡迎閱讀

原標(biāo)題：模擬5億年的進化信息，首個同時推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型
關(guān)鍵字：蛋白質(zhì),序列,報告,結(jié)構(gòu),功能
文章來源：人工智能學(xué)家
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

來源：ScienceAI
編輯：蘿卜皮
在三十億年的自然進化歷程中，現(xiàn)存蛋白質(zhì)的形態(tài)得以形成，經(jīng)歷了漫長的自然篩選過程。進化如同在地質(zhì)時間尺度上進行的平行實驗，通過隨機突變和選擇機制，依據(jù)蛋白質(zhì)的序列、結(jié)構(gòu)與功能進行篩選。
在這里，EvolutionaryScale 的研究人員展示了在進化產(chǎn)生的標(biāo)記上訓(xùn)練的語言模型可以充當(dāng)進化模擬器，用于生成不同于已知蛋白質(zhì)序列的功能性蛋白質(zhì)。
研究人員提出了 ESM3，這是一種前沿的多模態(tài)生成語言模型，可推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3 可以結(jié)合其模態(tài)來遵循復(fù)雜的提示，并且對生物學(xué)對齊（biological alignment）高度敏感。
研究人員使用 ESM3 生成熒光蛋白。其中一種功能上明亮的熒光蛋白，與已知的熒光蛋白的序列差異很大（58% 同源性）。
該研究的預(yù)印版文章「Simulating 500 million years of evolution with a language model」近期將發(fā)布在 bioRxiv 預(yù)印平臺。
自然進化是如何在超過三十億年的時間里，雕琢出當(dāng)前自然界中蛋白質(zhì)的多樣性的呢？
這一過程涉及無數(shù)隨機突變

原文鏈接：模擬5億年的進化信息，首個同時推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型