模擬5億年的進(jìn)化信息,首個(gè)同時(shí)推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:模擬5億年的進(jìn)化信息,首個(gè)同時(shí)推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型
關(guān)鍵字:蛋白質(zhì),序列,報(bào)告,結(jié)構(gòu),功能
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來源:ScienceAI
編輯:蘿卜皮
在三十億年的自然進(jìn)化歷程中,現(xiàn)存蛋白質(zhì)的形態(tài)得以形成,經(jīng)歷了漫長的自然篩選過程。進(jìn)化如同在地質(zhì)時(shí)間尺度上進(jìn)行的平行實(shí)驗(yàn),通過隨機(jī)突變和選擇機(jī)制,依據(jù)蛋白質(zhì)的序列、結(jié)構(gòu)與功能進(jìn)行篩選。
在這里,EvolutionaryScale 的研究人員展示了在進(jìn)化產(chǎn)生的標(biāo)記上訓(xùn)練的語言模型可以充當(dāng)進(jìn)化模擬器,用于生成不同于已知蛋白質(zhì)序列的功能性蛋白質(zhì)。
研究人員提出了 ESM3,這是一種前沿的多模態(tài)生成語言模型,可推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3 可以結(jié)合其模態(tài)來遵循復(fù)雜的提示,并且對(duì)生物學(xué)對(duì)齊(biological alignment)高度敏感。
研究人員使用 ESM3 生成熒光蛋白。其中一種功能上明亮的熒光蛋白,與已知的熒光蛋白的序列差異很大(58% 同源性)。
該研究的預(yù)印版文章「Simulating 500 million years of evolution with a language model」近期將發(fā)布在 bioRxiv 預(yù)印平臺(tái)。
自然進(jìn)化是如何在超過三十億年的時(shí)間里,雕琢出當(dāng)前自然界中蛋白質(zhì)的多樣性的呢?
這一過程涉及無數(shù)隨機(jī)突變
原文鏈接:模擬5億年的進(jìn)化信息,首個(gè)同時(shí)推理蛋白質(zhì)序列、結(jié)構(gòu)和功能的生物學(xué)大模型
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)