模型參數(shù)超 RFdiffusion 5倍!英偉達等發(fā)布 Proteina,從頭設(shè)計蛋白質(zhì)主鏈性能達 SOTA
該成果入選 ICLR 2025 Oral
原標題:模型參數(shù)超 RFdiffusion 5倍!英偉達等發(fā)布 Proteina,從頭設(shè)計蛋白質(zhì)主鏈性能達 SOTA
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):10159字
AI賦能蛋白質(zhì)設(shè)計:從結(jié)構(gòu)預測到從頭設(shè)計
本文概述了人工智能技術(shù)在蛋白質(zhì)設(shè)計領(lǐng)域的最新進展,特別是英偉達聯(lián)合其他研究機構(gòu)開發(fā)的Proteina模型,以及中國在該領(lǐng)域的創(chuàng)新成果。
蛋白質(zhì)設(shè)計領(lǐng)域的挑戰(zhàn)與AI的突破
自上世紀以來,科學家們一直致力于預測蛋白質(zhì)結(jié)構(gòu)和設(shè)計全新蛋白質(zhì)。AI技術(shù)的興起,特別是深度學習的應用,為這一領(lǐng)域注入了新的活力。2016年,深度殘差網(wǎng)絡(luò)ResNet的引入顯著提升了蛋白質(zhì)殘基接觸預測的準確性,為AI與蛋白質(zhì)設(shè)計的深度融合奠定了基礎(chǔ)。此后,AlphaFold等模型的出現(xiàn),將蛋白質(zhì)結(jié)構(gòu)預測推向了新的高度。然而,以往的蛋白質(zhì)結(jié)構(gòu)生成模型通常規(guī)模較小,數(shù)據(jù)量有限,缺乏有效的控制手段。
Proteina模型:大規(guī)模流式蛋白質(zhì)主鏈生成器
為了克服現(xiàn)有模型的局限性,英偉達聯(lián)合Mila、蒙特利爾大學和麻省理工學院的研究團隊開發(fā)了Proteina模型。Proteina采用可擴展非等變Transformer架構(gòu),參數(shù)量是RFdiffusion模型的5倍,訓練數(shù)據(jù)擴展到2100萬個合成蛋白質(zhì)結(jié)構(gòu)。它能夠生成高達800個殘基的主鏈,并保持多樣性和可設(shè)計性,在從頭設(shè)計蛋白質(zhì)主鏈方面達到了最先進的性能。Proteina在訓練中使用了創(chuàng)新的方法,包括調(diào)整流匹配目標、分階段訓練策略以及新的引導方案,以增強蛋白質(zhì)的可設(shè)計性。其研究成果已入選ICLR 2025 Oral。
中國在AI蛋白質(zhì)設(shè)計領(lǐng)域的貢獻
中國在AI驅(qū)動的蛋白質(zhì)設(shè)計領(lǐng)域也取得了顯著進展。多個研究團隊和企業(yè)開發(fā)了具有自主知識產(chǎn)權(quán)的蛋白質(zhì)設(shè)計平臺和模型,例如:上海天壤XLab的TRDesign平臺、分子之心的NewOrigin大模型、無錫途深智合的TourSynbio大模型、中科院計算所的CarbonNovo模型以及中科大團隊的SCUBA-D模型等。這些模型在蛋白質(zhì)結(jié)構(gòu)預測、序列設(shè)計和從頭設(shè)計等方面展現(xiàn)出強大的能力,并已在產(chǎn)業(yè)應用中得到驗證。這些成果體現(xiàn)了中國在該領(lǐng)域的創(chuàng)新實力和技術(shù)積累。
未來展望
隨著AI技術(shù)的不斷發(fā)展,以及大語言模型在蛋白質(zhì)設(shè)計領(lǐng)域的應用,該領(lǐng)域有望取得更多突破。中國在AI驅(qū)動的蛋白質(zhì)設(shè)計領(lǐng)域已形成獨特的技術(shù)生態(tài),未來將涌現(xiàn)更多創(chuàng)新成果,為全球生命科學研究和生物醫(yī)藥產(chǎn)業(yè)發(fā)展做出貢獻。
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:解構(gòu)技術(shù)先進性與普適性,報道更前沿的 AIforScience 案例