AIGC動態歡迎閱讀
原標題:文本圖格式大一統!首個大規模文本邊基準TEG-DB發布 | NeurIPS 2024
關鍵字:節點,文本,范式,數據,表示
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST
【新智元導讀】最近,來自上海大學、山東大學和埃默里大學等機構的研究人員首次提出了文本邊圖的數據集與基準,包括9個覆蓋4個領域的大規模文本邊圖數據集,以及一套標準化的文本邊圖研究范式。該研究的發表極大促進了文本邊圖圖表示學習的研究,有利于自然語言處理與圖數據挖掘領域的深度合作。文本屬性圖Text-Attributed Graphs(TAGs)是一種在節點上有豐富文本信息的圖結構, TAGs 廣泛應用于社交網絡(social network)、引用網絡(citation network)和推薦系統(recommendation system)等實際場景中。由于其強大且通用的表達能力,該領域近年來得到了快速發展。
然而目前TAGs面臨三大挑戰:
1. 現有的TAGs數據集一般僅在節點上包含文本信息,而邊的信息往往被簡化為二元或分類屬性。邊文本(edge text)的缺乏限制了對文本實體間復雜語義關系的表達和理解(比如一個實體局部的一些概念如何與另一實體的局部相關),阻礙了圖數據挖掘技術的進一步發展;
2. 文本圖數據格式和實驗設置不統一,難以進行模型之間的比較;
原文鏈接:文本圖格式大一統!首個大規模文本邊基準TEG-DB發布 | NeurIPS 2024
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...