AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!
關(guān)鍵字:序列,核酸,蛋白質(zhì),數(shù)據(jù),模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI把169861個(gè)生物物種數(shù)據(jù)裝進(jìn)大模型,大模型竟get到了生物中心法則的奧秘——
不僅能識(shí)別DNA、RNA與相應(yīng)蛋白質(zhì)之間的內(nèi)在聯(lián)系,在基因分類、蛋白質(zhì)相互作用預(yù)測(cè)、熱穩(wěn)定性預(yù)測(cè)等7種不同類型任務(wù)中也能比肩SOTA模型。
模型名為L(zhǎng)ucaOne,由阿里云飛天實(shí)驗(yàn)室生物智能計(jì)算團(tuán)隊(duì)打造。
相比AlphaFold 3因未開源遭到650多名學(xué)者聯(lián)名批評(píng),LucaOne訓(xùn)練推理代碼及相關(guān)數(shù)據(jù)目前均已開源。
LucaOne是目前首個(gè)全生物系統(tǒng)的核酸語言+蛋白語言的融合基座模型。換句話說,LucaOne由核酸(DNA、RNA)和蛋白質(zhì)序列聯(lián)合訓(xùn)練而來。
通過一系列實(shí)驗(yàn),研究人員發(fā)現(xiàn)它能廣泛適用各種下游任務(wù)。
在含13個(gè)物種、關(guān)系對(duì)總數(shù)量為24000的核酸序列和其對(duì)應(yīng)蛋白的正負(fù)樣本數(shù)據(jù)集中,LucaOne提供表征的模型達(dá)到0.85的預(yù)測(cè)準(zhǔn)確率。
遠(yuǎn)高于目前業(yè)內(nèi)最好的預(yù)訓(xùn)練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于LucaOne的單核酸訓(xùn)練版本+單蛋白訓(xùn)練版本。
其他任務(wù)如針對(duì)流感H3N2病毒疫苗有效性(免疫逃逸風(fēng)險(xiǎn))
原文鏈接:AlphaFold 3不開源,統(tǒng)一生物語言大模型阿里云先開了!
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破