Evo 2 – Acr研究所聯合英偉達、斯坦福等推出的生物學AI模型
Evo 2 是由美國弧形研究所、英偉達和斯坦福大學等機構聯合開發的一款前沿 DNA 語言模型,旨在為基因組建模和設計提供強大支持,覆蓋生命科學的各個領域。該模型基于 StripedHyena 2 架構,具備處理長達 100 萬個堿基對的單核苷酸分辨率能力,能有效推動基因組學研究與應用。
Evo 2是什么
Evo 2 是一款由美國弧形研究所、英偉達及斯坦福大學等多方合作推出的 DNA 語言模型,專注于基因組建模與設計,覆蓋生命科學的多個領域。該模型采用 StripedHyena 2 架構開發,具備處理長達 100 萬個堿基對的單核苷酸分辨率能力。Evo 2 在 OpenGenome2 數據集上進行自回歸預訓練,該數據集包含來自不同生命領域的 8.8 萬億個標記,能夠支持長序列建模、DNA序列生成以及嵌入向量提取等多種功能,提供多個模型檢查點以滿足不同用戶需求。Evo 2 是推動生物醫學和合成生物學等領域研究與應用的重要工具。
Evo 2的主要功能
- 長序列建模:能夠處理長達 100 萬個堿基對的 DNA 序列,支持高精度的基因組建模。
- DNA 序列生成:根據輸入提示生成全新的 DNA 序列,廣泛應用于合成生物學和基因編輯領域。
- 嵌入向量提取:提取 DNA 序列的嵌入向量,以便于后續的基因功能預測和變異效應分析。
- 零樣本預測:支持零樣本學習,能夠預測基因變異對功能的潛在影響(如 BRCA1 基因變異效應預測)。
- 序列評分:計算 DNA 序列的似然分數,以評估其穩定性和功能潛力。
Evo 2的技術原理
- 大規模數據訓練:基于超過 9.3 萬億個核苷酸的數據進行訓練,數據來自超過 12.8 萬個基因組,涵蓋細菌、古菌、真核生物等多個生命領域。
- 獨特的 AI 架構:采用 StripedHyena 2 架構,能夠處理長達 100 萬個核苷酸的基因序列,理解基因組中相距較遠部分之間的關系。
- 深度學習與生成生物學:運用深度學習技術,如同理解語言一樣掌握核酸序列,通過學習進化過程中形成的生物序列模式,預測基因突變的影響并生成新的基因組。
- 強大的計算支持:Evo 2 的訓練依托于英偉達的 DGX Cloud AI 平臺,使用超過 2000 個 H100 GPU,展現出強大的計算能力和高效的模型訓練。
Evo 2的項目地址
- 項目官網:https://arcinstitute.org/news/blog/evo2
- GitHub倉庫:https://github.com/ArcInstitute/evo2
- HuggingFace模型庫:https://huggingface.co/arcinstitute
- 技術論文:https://arcinstitute.org/manuscripts/Evo2
Evo 2的應用場景
- 疾病預測:識別基因突變是否與疾病相關,輔助進行疾病診斷。
- 基因治療:設計細胞特異性的基因治療工具,降低副作用。
- 合成生物學:設計新型基因組,推動人工生命研究的發展。
- 進化研究:識別基因序列中的模式,深入研究生物進化。
- 生物工具開發:設計生物傳感器等工具,促進生物技術的進步。
常見問題
- Evo 2 的主要優勢是什么? Evo 2 具備處理長序列的能力,能夠在基因組建模和設計上提供高精度支持。
- 如何使用 Evo 2 進行基因治療的設計? 用戶可以利用 Evo 2 生成特定的 DNA 序列,以設計細胞特異性的治療工具。
- Evo 2 是否支持多種生命形式的基因組? 是的,Evo 2 的訓練數據涵蓋了細菌、古菌和真核生物等多種生命形式。
- 如何獲取 Evo 2 的技術支持? 用戶可以訪問項目官網或 GitHub 倉庫獲取相關文檔和支持。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...