文本圖格式大一統(tǒng)!首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:文本圖格式大一統(tǒng)!首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024
關(guān)鍵字:節(jié)點(diǎn),文本,范式,數(shù)據(jù),表示
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRST
【新智元導(dǎo)讀】最近,來(lái)自上海大學(xué)、山東大學(xué)和埃默里大學(xué)等機(jī)構(gòu)的研究人員首次提出了文本邊圖的數(shù)據(jù)集與基準(zhǔn),包括9個(gè)覆蓋4個(gè)領(lǐng)域的大規(guī)模文本邊圖數(shù)據(jù)集,以及一套標(biāo)準(zhǔn)化的文本邊圖研究范式。該研究的發(fā)表極大促進(jìn)了文本邊圖圖表示學(xué)習(xí)的研究,有利于自然語(yǔ)言處理與圖數(shù)據(jù)挖掘領(lǐng)域的深度合作。文本屬性圖Text-Attributed Graphs(TAGs)是一種在節(jié)點(diǎn)上有豐富文本信息的圖結(jié)構(gòu), TAGs 廣泛應(yīng)用于社交網(wǎng)絡(luò)(social network)、引用網(wǎng)絡(luò)(citation network)和推薦系統(tǒng)(recommendation system)等實(shí)際場(chǎng)景中。由于其強(qiáng)大且通用的表達(dá)能力,該領(lǐng)域近年來(lái)得到了快速發(fā)展。
然而目前TAGs面臨三大挑戰(zhàn):
1. 現(xiàn)有的TAGs數(shù)據(jù)集一般僅在節(jié)點(diǎn)上包含文本信息,而邊的信息往往被簡(jiǎn)化為二元或分類(lèi)屬性。邊文本(edge text)的缺乏限制了對(duì)文本實(shí)體間復(fù)雜語(yǔ)義關(guān)系的表達(dá)和理解(比如一個(gè)實(shí)體局部的一些概念如何與另一實(shí)體的局部相關(guān)),阻礙了圖數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展;
2. 文本圖數(shù)據(jù)格式和實(shí)驗(yàn)設(shè)置不統(tǒng)一,難以進(jìn)行模型之間的比較;
原文鏈接:文本圖格式大一統(tǒng)!首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:
相關(guān)文章
