Evo 2作者、斯坦福計(jì)算生物學(xué)家 Brian Hie:AI可發(fā)現(xiàn)人類無(wú)法看到的模式
原標(biāo)題:Evo 2作者、斯坦福計(jì)算生物學(xué)家 Brian Hie:AI可發(fā)現(xiàn)人類無(wú)法看到的模式
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):10830字
Evo 2:有史以來(lái)最大的生物學(xué)AI模型
本文介紹了由Arc研究所、斯坦福大學(xué)和NVIDIA共同開發(fā)的Evo 2,這是迄今為止最大的生物學(xué)人工智能模型。Evo 2基于128,000個(gè)基因組進(jìn)行訓(xùn)練,涵蓋了從人類到單細(xì)胞細(xì)菌和古細(xì)菌的廣泛生命體,能夠從頭開始編寫整個(gè)染色體和小基因組,并理解現(xiàn)有的DNA,包括與疾病相關(guān)的復(fù)雜“非編碼”基因變體。其軟件代碼、數(shù)據(jù)和模型參數(shù)可在線訪問(wèn)和免費(fèi)下載。
Evo 2的突破性進(jìn)展
Evo 2及其前身Evo的突破在于將大型語(yǔ)言模型(LLM)技術(shù)應(yīng)用于DNA序列分析。研究人員將DNA序列視為類似于人類語(yǔ)言的序列數(shù)據(jù),通過(guò)訓(xùn)練模型預(yù)測(cè)DNA堿基對(duì)的序列,從而理解DNA的結(jié)構(gòu)和功能。Evo 2的成功,源于其創(chuàng)新的訓(xùn)練方法和龐大的數(shù)據(jù)集。
將LLM應(yīng)用于DNA的創(chuàng)新思路
1. **DNA序列的語(yǔ)言特性:** 研究人員認(rèn)為DNA序列如同人類語(yǔ)言一樣,是由離散的“token”(堿基對(duì))組成的序列,具有其自身的結(jié)構(gòu)和模式,并非隨機(jī)排列。
2. **從DNA到蛋白質(zhì)的語(yǔ)言建模:** 基于中心法則(DNA編碼RNA,RNA編碼蛋白質(zhì)),在DNA上訓(xùn)練好的模型可以自動(dòng)擴(kuò)展到RNA和蛋白質(zhì)的語(yǔ)言建模。同時(shí),Evo 2在整個(gè)基因組上進(jìn)行訓(xùn)練,保留了基因在基因組上相鄰位置的重要信息,這與僅關(guān)注蛋白質(zhì)編碼區(qū)域的傳統(tǒng)方法不同。
3. **長(zhǎng)上下文長(zhǎng)度:** Evo 2能夠處理更長(zhǎng)的DNA序列(上下文長(zhǎng)度),這需要克服巨大的計(jì)算挑戰(zhàn),研究團(tuán)隊(duì)利用了最新的技術(shù)進(jìn)展來(lái)降低計(jì)算成本。
4. **數(shù)據(jù)集的多樣性:** 訓(xùn)練數(shù)據(jù)包含了高度多樣化的基因組序列,這使得模型能夠?qū)W習(xí)到更普遍的規(guī)律。
Evo 2的測(cè)試和性能
Evo 2通過(guò)預(yù)測(cè)蛋白質(zhì)編碼DNA序列中突變的“進(jìn)化可能性”來(lái)進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,Evo 2預(yù)測(cè)的高可能性突變通常能夠保持或改善蛋白質(zhì)功能,而低可能性突變則可能破壞蛋白質(zhì)功能。雖然Evo 2也會(huì)犯錯(cuò),但其“幻覺(jué)”能力在生物學(xué)研究中可能成為一種優(yōu)勢(shì),幫助發(fā)現(xiàn)新的生物學(xué)現(xiàn)象。
Brian Hie對(duì)Evo 2的評(píng)價(jià)
斯坦福大學(xué)計(jì)算生物學(xué)家Brian Hie指出,Evo 2發(fā)現(xiàn)了人類難以察覺(jué)的DNA序列模式,這體現(xiàn)了AI在生物學(xué)研究中的巨大潛力。Evo 2的成功,為生物學(xué)研究提供了強(qiáng)大的新工具,有望加速對(duì)生命奧秘的探索,并推動(dòng)生物醫(yī)學(xué)領(lǐng)域的創(chuàng)新。
Evo 2的開放性
Evo 2的軟件代碼、數(shù)據(jù)和模型參數(shù)可供公眾免費(fèi)使用,這將促進(jìn)全球科學(xué)界對(duì)該技術(shù)的進(jìn)一步研究和應(yīng)用,推動(dòng)生物學(xué)AI領(lǐng)域的快速發(fā)展。
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)