分類性能提高 10%,港中大團(tuán)隊(duì)利用大型蛋白質(zhì)語(yǔ)言模型發(fā)現(xiàn)未知的信號(hào)肽
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:分類性能提高 10%,港中大團(tuán)隊(duì)利用大型蛋白質(zhì)語(yǔ)言模型發(fā)現(xiàn)未知的信號(hào)肽
關(guān)鍵字:序列,蛋白質(zhì),模型,宏基,方法
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):4569字
內(nèi)容摘要:將 ScienceAI設(shè)為星標(biāo)第一時(shí)間掌握新鮮的 AI for Science 資訊編輯 | 蘿卜皮信號(hào)肽 (SP) 對(duì)于跨膜和分泌蛋白靶向并將其轉(zhuǎn)移到正確位置至關(guān)重要。許多現(xiàn)有的預(yù)測(cè) SP 的計(jì)算工具忽視了極端的數(shù)據(jù)不平衡問(wèn)題,而依賴于蛋白質(zhì)的額外組信息。香港中文大學(xué)的研究人員開(kāi)發(fā)了無(wú)偏生物體不可知信號(hào)肽網(wǎng)絡(luò)(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一種 SP 分類和切割位點(diǎn)預(yù)測(cè)深度學(xué)習(xí)方法。大量的實(shí)驗(yàn)結(jié)果表明,USPNet 的分類性能比之前的方法大幅提高了 10%。USPNet 的 SP 發(fā)現(xiàn)流程旨在從宏基因組數(shù)據(jù)中探索從未見(jiàn)過(guò)的 SP。它揭示了 347 個(gè) SP 候選物,這些候選物與訓(xùn)練數(shù)據(jù)集中最接近的 SP 之間的序列同一性很低,最低僅為 13%。此外,訓(xùn)練集中候選物和 SP 之間的模板建模分?jǐn)?shù)大多在 0.…
原文鏈接:點(diǎn)此閱讀原文:分類性能提高 10%,港中大團(tuán)隊(duì)利用大型蛋白質(zhì)語(yǔ)言模型發(fā)現(xiàn)未知的信號(hào)肽
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)