原標題:Evo 2作者、斯坦福計算生物學家 Brian Hie:AI可發現人類無法看到的模式
文章來源:人工智能學家
內容字數:10830字
Evo 2:有史以來最大的生物學AI模型
本文介紹了由Arc研究所、斯坦福大學和NVIDIA共同開發的Evo 2,這是迄今為止最大的生物學人工智能模型。Evo 2基于128,000個基因組進行訓練,涵蓋了從人類到單細胞細菌和古細菌的廣泛生命體,能夠從頭開始編寫整個染色體和小基因組,并理解現有的DNA,包括與疾病相關的復雜“非編碼”基因變體。其軟件代碼、數據和模型參數可在線訪問和免費下載。
Evo 2的突破性進展
Evo 2及其前身Evo的突破在于將大型語言模型(LLM)技術應用于DNA序列分析。研究人員將DNA序列視為類似于人類語言的序列數據,通過訓練模型預測DNA堿基對的序列,從而理解DNA的結構和功能。Evo 2的成功,源于其創新的訓練方法和龐大的數據集。
將LLM應用于DNA的創新思路
1. **DNA序列的語言特性:** 研究人員認為DNA序列如同人類語言一樣,是由離散的“token”(堿基對)組成的序列,具有其自身的結構和模式,并非隨機排列。
2. **從DNA到蛋白質的語言建模:** 基于中心法則(DNA編碼RNA,RNA編碼蛋白質),在DNA上訓練好的模型可以自動擴展到RNA和蛋白質的語言建模。同時,Evo 2在整個基因組上進行訓練,保留了基因在基因組上相鄰位置的重要信息,這與僅關注蛋白質編碼區域的傳統方法不同。
3. **長上下文長度:** Evo 2能夠處理更長的DNA序列(上下文長度),這需要克服巨大的計算挑戰,研究團隊利用了最新的技術進展來降低計算成本。
4. **數據集的多樣性:** 訓練數據包含了高度多樣化的基因組序列,這使得模型能夠學習到更普遍的規律。
Evo 2的測試和性能
Evo 2通過預測蛋白質編碼DNA序列中突變的“進化可能性”來進行測試。實驗結果表明,Evo 2預測的高可能性突變通常能夠保持或改善蛋白質功能,而低可能性突變則可能破壞蛋白質功能。雖然Evo 2也會犯錯,但其“幻覺”能力在生物學研究中可能成為一種優勢,幫助發現新的生物學現象。
Brian Hie對Evo 2的評價
斯坦福大學計算生物學家Brian Hie指出,Evo 2發現了人類難以察覺的DNA序列模式,這體現了AI在生物學研究中的巨大潛力。Evo 2的成功,為生物學研究提供了強大的新工具,有望加速對生命奧秘的探索,并推動生物醫學領域的創新。
Evo 2的開放性
Evo 2的軟件代碼、數據和模型參數可供公眾免費使用,這將促進全球科學界對該技術的進一步研究和應用,推動生物學AI領域的快速發展。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構