1億參數的細胞大模型來了!登Nature子刊,清華大學團隊發布scFoundation:對2萬基因同時建模
AIGC動態歡迎閱讀
原標題:1億參數的細胞大模型來了!登Nature子刊,清華大學團隊發布scFoundation:對2萬基因同時建模
關鍵字:模型,基因,細胞,數據,單細胞
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
作者:梅菜
編輯:李寶珠
清華大學自動化系生命基礎模型實驗室和電子系/AIR 合作開展研究,構建了擁有 1 億參數的 scFoundation 細胞大模型。近年來,大規模預訓練模型正在引領新一輪人工智能浪潮。「大模型」通過從大規模、多來源的數據中提取深層次規律,進而能夠作為「基礎模型」服務不同領域的多樣化任務。例如,大語言模型通過學量文本數據,掌握了理解和識別語言的能力,革新了自然語言處理領域的范式。
同理,在生命科學領域,生物體也有其「底層語言」——細胞是人體的基本結構和功能單位,如果將 DAN、RNA、蛋白質和基因表達值比作「詞語」,其組合在一起就連成了「細胞」這個句子。所以,如果能夠基于細胞「語言」開發人工智能細胞大模型,將有望為生命科學和醫學提供全新的研究范式和性的研究工具。
然而,當前訓練大規模單細胞數據主要存在以下三點挑戰:
* 基因表達預訓練數據需要涵蓋不同狀態和類型的細胞景觀,目前大多數單細胞 RNA 測序 (scRNA-seq) 數據組織松散,全面完整的數據庫仍然缺失;
* 在訓練過程中,傳統的 Transformer 難以處理近 2 萬個蛋白質編碼基因構成的
原文鏈接:1億參數的細胞大模型來了!登Nature子刊,清華大學團隊發布scFoundation:對2萬基因同時建模
聯系作者
文章來源:HyperAI超神經
作者微信:HyperAI
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...