分類性能提高 10%,港中大團隊利用大型蛋白質(zhì)語言模型發(fā)現(xiàn)未知的信號肽
AIGC動態(tài)歡迎閱讀
原標題:分類性能提高 10%,港中大團隊利用大型蛋白質(zhì)語言模型發(fā)現(xiàn)未知的信號肽
關(guān)鍵字:序列,蛋白質(zhì),模型,宏基,方法
文章來源:人工智能學(xué)家
內(nèi)容字數(shù):4569字
內(nèi)容摘要:將 ScienceAI設(shè)為星標第一時間掌握新鮮的 AI for Science 資訊編輯 | 蘿卜皮信號肽 (SP) 對于跨膜和分泌蛋白靶向并將其轉(zhuǎn)移到正確位置至關(guān)重要。許多現(xiàn)有的預(yù)測 SP 的計算工具忽視了極端的數(shù)據(jù)不平衡問題,而依賴于蛋白質(zhì)的額外組信息。香港中文大學(xué)的研究人員開發(fā)了無偏生物體不可知信號肽網(wǎng)絡(luò)(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一種 SP 分類和切割位點預(yù)測深度學(xué)習(xí)方法。大量的實驗結(jié)果表明,USPNet 的分類性能比之前的方法大幅提高了 10%。USPNet 的 SP 發(fā)現(xiàn)流程旨在從宏基因組數(shù)據(jù)中探索從未見過的 SP。它揭示了 347 個 SP 候選物,這些候選物與訓(xùn)練數(shù)據(jù)集中最接近的 SP 之間的序列同一性很低,最低僅為 13%。此外,訓(xùn)練集中候選物和 SP 之間的模板建模分數(shù)大多在 0.…
原文鏈接:點此閱讀原文:分類性能提高 10%,港中大團隊利用大型蛋白質(zhì)語言模型發(fā)現(xiàn)未知的信號肽
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)
相關(guān)文章
