GENERator – 阿里 AI for Science 團隊等推出的生成式 DNA 大模型
GENERator簡介
GENERator是由阿里云飛天實驗室的AI for Science團隊研發的一款先進的生成式基因組模型,專注于DNA序列的設計與生成。該模型基于Transformer解碼器架構,擁有98k堿基對的上下文長度和12億參數,訓練數據涵蓋了高達3860億bp的真核生物DNA。GENERator在多個標準測試中表現優異,能夠生成與天然蛋白質家族結構相仿的DNA序列,并在啟動子設計等應用中展現出卓越的優化能力。
主要功能
- 生成DNA序列:GENERator能夠生成具有生物學意義的DNA序列,成功編碼與已知家族結構相似的蛋白質,包括全新變體的組蛋白和細胞色素P450家族。
- 啟動子設計:通過微調,GENERator可以設計特定活性的啟動子序列,以調控基因表達。實驗結果顯示,生成的啟動子序列在活性上與天然樣本有顯著差異,展現出強大的基因表達調控潛力。
- 基因組分析與注釋:在基因分類和分類群任務中,GENERator表現出色,能夠高效識別基因位置、預測基因功能并注釋基因結構。
- 序列優化:在序列優化方面,GENERator展現出顯著潛力,能夠根據特定指令生成具有特定活性的DNA序列,為合成生物學和基因工程提供了全新工具。
技術原理
- Transformer解碼器架構:采用先進的Transformer解碼器架構,利用多頭自注意力機制和前饋神經網絡實現高效的序列建模,確保生成的序列符合生物學邏輯。
- 超長上下文建模:模型支持98k堿基對的上下文長度,能夠處理復雜的基因結構,在生成長序列時保持連貫性和生物學意義。
- 6-mer分詞器:使用6-mer分詞器將DNA序列分割為長度為6的核苷酸片段,在生成任務中相較于單核苷酸分詞器和BPE分詞器表現更佳,平衡了序列分辨率與上下文覆蓋。
- 預訓練策略:在大規模數據上進行預訓練,數據集包含3860億bp的真核生物DNA,采用下一字符預測(NTP)任務,通過預測下一個核苷酸來學習DNA序列的語義。
- 下游任務適配:在基因分類、分類群和啟動子設計等多個下游任務中表現出色,微調后能生成具有特定活性的啟動子序列,展現出強大的調控能力。
- 生物學驗證:模型生成的DNA序列能夠編碼與天然蛋白質家族結構相似的蛋白質,通過Progen2計算生成序列的困惑度(PPL)并使用AlphaFold3預測其三維結構,驗證了生成序列的生物學有效性。
項目資源
- 項目官網:https://generteam.github.io/
- Github倉庫:https://github.com/GenerTeam/GENERator
- HuggingFace模型庫:https://huggingface.co/GenerTeam
- arXiv技術論文:https://arxiv.org/pdf/2502.07272
應用場景
- DNA序列設計與優化:GENERator能夠生成具有生物學意義的DNA序列,適用于蛋白質家族的定制,例如生成與天然蛋白質家族結構相似的變體。
- 基因組分析與注釋:在基因組學研究中,GENERator能夠高效識別基因位置、預測基因功能并注釋基因結構。
- 合成生物學與基因工程:提供一種新工具,設計和優化基因表達調控元件,如啟動子和增強子,在合成生物學和基因工程中具有重要應用價值。
- 精準醫療與藥物設計:通過生成與特定疾病相關的基因序列,支持精準醫療和藥物設計,能用于設計靶向基因治療的序列。
- 生物技術中的序列優化:通過指令生成具有特定功能的DNA序列,為生物技術中的序列優化提供新的可能性。
常見問題
若您對GENERator有任何疑問,歡迎訪問我們的官網或Github倉庫了解更多信息,或在相關社區尋求支持。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...