AIGC動態歡迎閱讀
原標題:7B模型超越GPT4-V!港科大等發布「圖推理問答」數據集GITQA:視覺圖可提升推理能力
關鍵字:模型,視覺,任務,數據,文本
文章來源:新智元
內容字數:9253字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】研究人員證實了Visual Graph在圖推理中的作用,以及其可以和文本模態相互增強。圖神經網絡(GNNs)擅長利用圖的結構信息進行推理,但它們通常需要特定于領域的調優才能達到峰值性能,這阻礙了它們在不同任務之間的泛化性。
相比之下,基于大型語言模型(LLM)的圖推理具有更強的跨任務和泛化能力,但它們在特定任務上的性能往往遜色于專用的圖神經網絡模型。
無論是以圖神經網絡為代表的傳統圖推理還是新興的基于大型語言模型的圖推理,目前圖推理相關工作都忽視了視覺模態的圖信息。
然而,人類會通過視覺特征高效和準確地完成圖任務,例如判斷圖中是否存在環。
因此,探究視覺形態的圖信息在圖推理中的作用具有重要意義。
更具體地,將圖(Graph)繪制為圖片(Image),是否能賦予模型特殊的推理能力呢?這些圖片(稱為視覺圖 Visual Graph)是否能增強現有的基于其他模態的圖推理模型呢?
為了回答這些問題,來自香港科技大學和南方科技大學的研究團隊構建了首個包含視覺圖的推理問答數據集GITQA,并在GPT-4 turbo,GPT-4V等開源模型和Vicuna
原文鏈接:7B模型超越GPT4-V!港科大等發布「圖推理問答」數據集GITQA:視覺圖可提升推理能力
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...