1億參數(shù)的細(xì)胞大模型來了!登Nature子刊,清華大學(xué)團(tuán)隊發(fā)布scFoundation:對2萬基因同時建模
AIGC動態(tài)歡迎閱讀
原標(biāo)題:1億參數(shù)的細(xì)胞大模型來了!登Nature子刊,清華大學(xué)團(tuán)隊發(fā)布scFoundation:對2萬基因同時建模
關(guān)鍵字:模型,基因,細(xì)胞,數(shù)據(jù),單細(xì)胞
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者:梅菜
編輯:李寶珠
清華大學(xué)自動化系生命基礎(chǔ)模型實驗室和電子系/AIR 合作開展研究,構(gòu)建了擁有 1 億參數(shù)的 scFoundation 細(xì)胞大模型。近年來,大規(guī)模預(yù)訓(xùn)練模型正在引領(lǐng)新一輪人工智能浪潮。「大模型」通過從大規(guī)模、多來源的數(shù)據(jù)中提取深層次規(guī)律,進(jìn)而能夠作為「基礎(chǔ)模型」服務(wù)不同領(lǐng)域的多樣化任務(wù)。例如,大語言模型通過學(xué)量文本數(shù)據(jù),掌握了理解和識別語言的能力,革新了自然語言處理領(lǐng)域的范式。
同理,在生命科學(xué)領(lǐng)域,生物體也有其「底層語言」——細(xì)胞是人體的基本結(jié)構(gòu)和功能單位,如果將 DAN、RNA、蛋白質(zhì)和基因表達(dá)值比作「詞語」,其組合在一起就連成了「細(xì)胞」這個句子。所以,如果能夠基于細(xì)胞「語言」開發(fā)人工智能細(xì)胞大模型,將有望為生命科學(xué)和醫(yī)學(xué)提供全新的研究范式和性的研究工具。
然而,當(dāng)前訓(xùn)練大規(guī)模單細(xì)胞數(shù)據(jù)主要存在以下三點挑戰(zhàn):
* 基因表達(dá)預(yù)訓(xùn)練數(shù)據(jù)需要涵蓋不同狀態(tài)和類型的細(xì)胞景觀,目前大多數(shù)單細(xì)胞 RNA 測序 (scRNA-seq) 數(shù)據(jù)組織松散,全面完整的數(shù)據(jù)庫仍然缺失;
* 在訓(xùn)練過程中,傳統(tǒng)的 Transformer 難以處理近 2 萬個蛋白質(zhì)編碼基因構(gòu)成的
原文鏈接:1億參數(shù)的細(xì)胞大模型來了!登Nature子刊,清華大學(xué)團(tuán)隊發(fā)布scFoundation:對2萬基因同時建模
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:HyperAI
作者簡介:解構(gòu)技術(shù)先進(jìn)性與普適性,報道更前沿的 AIforScience 案例