哈佛、哥大開源1600萬組蛋白質(zhì)序列,解決AlphaFold 2訓(xùn)練數(shù)據(jù)私有難題!
AIGC動態(tài)歡迎閱讀
原標(biāo)題:哈佛、哥大開源1600萬組蛋白質(zhì)序列,解決AlphaFold 2訓(xùn)練數(shù)據(jù)私有難題!
關(guān)鍵字:序列,蛋白質(zhì),數(shù)據(jù),結(jié)構(gòu),數(shù)據(jù)庫
文章來源:新智元
內(nèi)容字?jǐn)?shù):4596字
內(nèi)容摘要:新智元報道編輯:Aeneas【新智元導(dǎo)讀】這個叫OpenProteinSet的開源數(shù)據(jù)集,提供1600萬個開源蛋白質(zhì)多序列對齊(MSA)和相關(guān)數(shù)據(jù)。它涵蓋了所有蛋白質(zhì)數(shù)據(jù)庫的蛋白質(zhì)和各種UniProt集群,可以實(shí)現(xiàn)廣泛的AI模型訓(xùn)練。蛋白質(zhì)是生命的主力軍,了解它們的序列和結(jié)構(gòu),是設(shè)計(jì)新酶、開發(fā)救命藥物等生物學(xué)和醫(yī)學(xué)挑戰(zhàn)的關(guān)鍵。然而,由于缺乏開放的訓(xùn)練數(shù)據(jù),這一領(lǐng)域的進(jìn)展被嚴(yán)重阻礙。但來自哈佛大學(xué)、…
原文鏈接:點(diǎn)此閱讀原文:哈佛、哥大開源1600萬組蛋白質(zhì)序列,解決AlphaFold 2訓(xùn)練數(shù)據(jù)私有難題!
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。