ProtGPS – 麻省理工學(xué)院等機構(gòu)推出的蛋白質(zhì)語言模型
ProtGPS是什么
ProtGPS(蛋白質(zhì)定位預(yù)測模型)是由麻省理工學(xué)院(MIT)與懷特黑德生物醫(yī)學(xué)研究所共同研發(fā)的一款基于深度學(xué)習(xí)的蛋白質(zhì)語言模型,旨在預(yù)測蛋白質(zhì)在細(xì)胞中的亞細(xì)胞定位。該模型通過分析蛋白質(zhì)的氨基酸序列,利用進化尺度的蛋白質(zhì)變換器(Transformer)架構(gòu),從中學(xué)習(xí)復(fù)雜的模式和相互關(guān)系。ProtGPS能夠評估蛋白質(zhì)在12種不同亞細(xì)胞區(qū)域(如核仁、核斑點等)的分布概率,并有效指導(dǎo)新型蛋白質(zhì)序列的特異性組裝。此外,ProtGPS還可以識別引起蛋白質(zhì)亞細(xì)胞定位改變的致病突變,為理解細(xì)胞功能及疾病機制提供了新的視角和工具。
ProtGPS的主要功能
- 預(yù)測蛋白質(zhì)的細(xì)胞內(nèi)分布:能夠預(yù)測蛋白質(zhì)在12種不同亞細(xì)胞區(qū)域(如核仁、核斑點、應(yīng)激顆粒等)的定位概率。
- 設(shè)計特定亞細(xì)胞定位的蛋白質(zhì):生成新的蛋白質(zhì)序列,使其能特異性地組裝到目標(biāo)亞細(xì)胞區(qū)域(如核仁或核斑點)。
- 識別致病突變影響:分析突變對蛋白質(zhì)亞細(xì)胞定位的影響,預(yù)測是否會導(dǎo)致蛋白質(zhì)分布異常。
ProtGPS的技術(shù)原理
- 基于Transformer的序列學(xué)習(xí):依托于ESM2(進化尺度模型2)架構(gòu),一種基于Transformer的蛋白質(zhì)語言模型,能夠理解輸入序列中所有氨基酸間的關(guān)系,捕捉蛋白質(zhì)序列中的復(fù)雜模式和相互作用。
- 神經(jīng)網(wǎng)絡(luò)分類器的聯(lián)合訓(xùn)練:
- 將ESM2與神經(jīng)網(wǎng)絡(luò)分類器共同訓(xùn)練,分類器的任務(wù)是根據(jù)ESM2提取的特征,預(yù)測蛋白質(zhì)在不同亞細(xì)胞區(qū)域的定位概率。
- 訓(xùn)練數(shù)據(jù)集包含5480個人類蛋白質(zhì)序列,這些序列被標(biāo)注為屬于12種不同的亞細(xì)胞區(qū)域,從中學(xué)習(xí)到不同行區(qū)域的蛋白質(zhì)序列特征。
- 生成蛋白質(zhì)序列的算法:利用馬爾可夫鏈蒙特卡洛(MCMC)算法設(shè)計具有特定亞細(xì)胞定位的蛋白質(zhì)。在生成蛋白質(zhì)序列時,考慮其化學(xué)空間和內(nèi)在無序性,確保生成的序列符合自然蛋白質(zhì)的分布,并能特異性地定位到目標(biāo)亞細(xì)胞區(qū)域。
- 致病突變分析:評估致病突變對蛋白質(zhì)亞細(xì)胞定位的影響,通過比較野生型與突變型蛋白質(zhì)的定位預(yù)測結(jié)果,識別導(dǎo)致蛋白質(zhì)分布改變的突變。采用信息論中的Shannon熵和Wasserstein距離量化突變對蛋白質(zhì)定位預(yù)測不確定性的影響。
ProtGPS的項目地址
- GitHub倉庫:https://github.com/pgmikhael/protgps
- arXiv技術(shù)論文:https://www.biorxiv.org/content
ProtGPS的應(yīng)用場景
- 疾病機制研究:識別致病突變對蛋白質(zhì)亞細(xì)胞定位的影響,有助于深入理解疾病的發(fā)病機制。
- 蛋白質(zhì)工程與藥物設(shè)計:設(shè)計具有特定亞細(xì)胞定位的蛋白質(zhì),以開發(fā)新型蛋白質(zhì)藥物或生物傳感器。
- 細(xì)胞生物學(xué)研究:預(yù)測蛋白質(zhì)在不同亞細(xì)胞區(qū)域的定位,促進細(xì)胞內(nèi)蛋白質(zhì)功能及相互作用的研究。
- 基因治療與基因編輯:設(shè)計特異性靶向亞細(xì)胞區(qū)域的基因編輯工具,提高基因編輯的效率和精準(zhǔn)性。
- 蛋白質(zhì)功能注釋與數(shù)據(jù)庫構(gòu)建:為蛋白質(zhì)功能研究提供線索,助力構(gòu)建更全面的蛋白質(zhì)功能數(shù)據(jù)庫。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...