GENERator – 阿里 AI for Science 團隊等推出的生成式 DNA 大模型
GENERator簡介
GENERator是由阿里云飛天實驗室的AI for Science團隊研發(fā)的一款先進的生成式基因組模型,專注于DNA序列的設(shè)計與生成。該模型基于Transformer解碼器架構(gòu),擁有98k堿基對的上下文長度和12億參數(shù),訓(xùn)練數(shù)據(jù)涵蓋了高達3860億bp的真核生物DNA。GENERator在多個標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異,能夠生成與天然蛋白質(zhì)家族結(jié)構(gòu)相仿的DNA序列,并在啟動子設(shè)計等應(yīng)用中展現(xiàn)出卓越的優(yōu)化能力。

主要功能
- 生成DNA序列:GENERator能夠生成具有生物學(xué)意義的DNA序列,成功編碼與已知家族結(jié)構(gòu)相似的蛋白質(zhì),包括全新變體的組蛋白和細胞色素P450家族。
- 啟動子設(shè)計:通過微調(diào),GENERator可以設(shè)計特定活性的啟動子序列,以調(diào)控基因表達。實驗結(jié)果顯示,生成的啟動子序列在活性上與天然樣本有顯著差異,展現(xiàn)出強大的基因表達調(diào)控潛力。
- 基因組分析與注釋:在基因分類和分類群任務(wù)中,GENERator表現(xiàn)出色,能夠高效識別基因位置、預(yù)測基因功能并注釋基因結(jié)構(gòu)。
- 序列優(yōu)化:在序列優(yōu)化方面,GENERator展現(xiàn)出顯著潛力,能夠根據(jù)特定指令生成具有特定活性的DNA序列,為合成生物學(xué)和基因工程提供了全新工具。
技術(shù)原理
- Transformer解碼器架構(gòu):采用先進的Transformer解碼器架構(gòu),利用多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn)高效的序列建模,確保生成的序列符合生物學(xué)邏輯。
- 超長上下文建模:模型支持98k堿基對的上下文長度,能夠處理復(fù)雜的基因結(jié)構(gòu),在生成長序列時保持連貫性和生物學(xué)意義。
- 6-mer分詞器:使用6-mer分詞器將DNA序列分割為長度為6的核苷酸片段,在生成任務(wù)中相較于單核苷酸分詞器和BPE分詞器表現(xiàn)更佳,平衡了序列分辨率與上下文覆蓋。
- 預(yù)訓(xùn)練策略:在大規(guī)模數(shù)據(jù)上進行預(yù)訓(xùn)練,數(shù)據(jù)集包含3860億bp的真核生物DNA,采用下一字符預(yù)測(NTP)任務(wù),通過預(yù)測下一個核苷酸來學(xué)習(xí)DNA序列的語義。
- 下游任務(wù)適配:在基因分類、分類群和啟動子設(shè)計等多個下游任務(wù)中表現(xiàn)出色,微調(diào)后能生成具有特定活性的啟動子序列,展現(xiàn)出強大的調(diào)控能力。
- 生物學(xué)驗證:模型生成的DNA序列能夠編碼與天然蛋白質(zhì)家族結(jié)構(gòu)相似的蛋白質(zhì),通過Progen2計算生成序列的困惑度(PPL)并使用AlphaFold3預(yù)測其三維結(jié)構(gòu),驗證了生成序列的生物學(xué)有效性。
項目資源
- 項目官網(wǎng):https://generteam.github.io/
- Github倉庫:https://github.com/GenerTeam/GENERator
- HuggingFace模型庫:https://huggingface.co/GenerTeam
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.07272
應(yīng)用場景
- DNA序列設(shè)計與優(yōu)化:GENERator能夠生成具有生物學(xué)意義的DNA序列,適用于蛋白質(zhì)家族的定制,例如生成與天然蛋白質(zhì)家族結(jié)構(gòu)相似的變體。
- 基因組分析與注釋:在基因組學(xué)研究中,GENERator能夠高效識別基因位置、預(yù)測基因功能并注釋基因結(jié)構(gòu)。
- 合成生物學(xué)與基因工程:提供一種新工具,設(shè)計和優(yōu)化基因表達調(diào)控元件,如啟動子和增強子,在合成生物學(xué)和基因工程中具有重要應(yīng)用價值。
- 精準(zhǔn)醫(yī)療與藥物設(shè)計:通過生成與特定疾病相關(guān)的基因序列,支持精準(zhǔn)醫(yī)療和藥物設(shè)計,能用于設(shè)計靶向基因治療的序列。
- 生物技術(shù)中的序列優(yōu)化:通過指令生成具有特定功能的DNA序列,為生物技術(shù)中的序列優(yōu)化提供新的可能性。
常見問題
若您對GENERator有任何疑問,歡迎訪問我們的官網(wǎng)或Github倉庫了解更多信息,或在相關(guān)社區(qū)尋求支持。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號