ProtGPS – 麻省理工學院等機構推出的蛋白質語言模型
ProtGPS是什么
ProtGPS(蛋白質定位預測模型)是由麻省理工學院(MIT)與懷特黑德生物醫學研究所共同研發的一款基于深度學習的蛋白質語言模型,旨在預測蛋白質在細胞中的亞細胞定位。該模型通過分析蛋白質的氨基酸序列,利用進化尺度的蛋白質變換器(Transformer)架構,從中學習復雜的模式和相互關系。ProtGPS能夠評估蛋白質在12種不同亞細胞區域(如核仁、核斑點等)的分布概率,并有效指導新型蛋白質序列的特異性組裝。此外,ProtGPS還可以識別引起蛋白質亞細胞定位改變的致病突變,為理解細胞功能及疾病機制提供了新的視角和工具。
ProtGPS的主要功能
- 預測蛋白質的細胞內分布:能夠預測蛋白質在12種不同亞細胞區域(如核仁、核斑點、應激顆粒等)的定位概率。
- 設計特定亞細胞定位的蛋白質:生成新的蛋白質序列,使其能特異性地組裝到目標亞細胞區域(如核仁或核斑點)。
- 識別致病突變影響:分析突變對蛋白質亞細胞定位的影響,預測是否會導致蛋白質分布異常。
ProtGPS的技術原理
- 基于Transformer的序列學習:依托于ESM2(進化尺度模型2)架構,一種基于Transformer的蛋白質語言模型,能夠理解輸入序列中所有氨基酸間的關系,捕捉蛋白質序列中的復雜模式和相互作用。
- 神經網絡分類器的聯合訓練:
- 將ESM2與神經網絡分類器共同訓練,分類器的任務是根據ESM2提取的特征,預測蛋白質在不同亞細胞區域的定位概率。
- 訓練數據集包含5480個人類蛋白質序列,這些序列被標注為屬于12種不同的亞細胞區域,從中學習到不同行區域的蛋白質序列特征。
- 生成蛋白質序列的算法:利用馬爾可夫鏈蒙特卡洛(MCMC)算法設計具有特定亞細胞定位的蛋白質。在生成蛋白質序列時,考慮其化學空間和內在無序性,確保生成的序列符合自然蛋白質的分布,并能特異性地定位到目標亞細胞區域。
- 致病突變分析:評估致病突變對蛋白質亞細胞定位的影響,通過比較野生型與突變型蛋白質的定位預測結果,識別導致蛋白質分布改變的突變。采用信息論中的Shannon熵和Wasserstein距離量化突變對蛋白質定位預測不確定性的影響。
ProtGPS的項目地址
- GitHub倉庫:https://github.com/pgmikhael/protgps
- arXiv技術論文:https://www.biorxiv.org/content
ProtGPS的應用場景
- 疾病機制研究:識別致病突變對蛋白質亞細胞定位的影響,有助于深入理解疾病的發病機制。
- 蛋白質工程與藥物設計:設計具有特定亞細胞定位的蛋白質,以開發新型蛋白質藥物或生物傳感器。
- 細胞生物學研究:預測蛋白質在不同亞細胞區域的定位,促進細胞內蛋白質功能及相互作用的研究。
- 基因治療與基因編輯:設計特異性靶向亞細胞區域的基因編輯工具,提高基因編輯的效率和精準性。
- 蛋白質功能注釋與數據庫構建:為蛋白質功能研究提供線索,助力構建更全面的蛋白質功能數據庫。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...