7B模型超越GPT4-V!港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA:視覺圖可提升推理能力
AIGC動態(tài)歡迎閱讀
原標(biāo)題:7B模型超越GPT4-V!港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA:視覺圖可提升推理能力
關(guān)鍵字:模型,視覺,任務(wù),數(shù)據(jù),文本
文章來源:新智元
內(nèi)容字?jǐn)?shù):9253字
內(nèi)容摘要:
新智元報道編輯:LRS 好困
【新智元導(dǎo)讀】研究人員證實了Visual Graph在圖推理中的作用,以及其可以和文本模態(tài)相互增強。圖神經(jīng)網(wǎng)絡(luò)(GNNs)擅長利用圖的結(jié)構(gòu)信息進(jìn)行推理,但它們通常需要特定于領(lǐng)域的調(diào)優(yōu)才能達(dá)到峰值性能,這阻礙了它們在不同任務(wù)之間的泛化性。
相比之下,基于大型語言模型(LLM)的圖推理具有更強的跨任務(wù)和泛化能力,但它們在特定任務(wù)上的性能往往遜色于專用的圖神經(jīng)網(wǎng)絡(luò)模型。
無論是以圖神經(jīng)網(wǎng)絡(luò)為代表的傳統(tǒng)圖推理還是新興的基于大型語言模型的圖推理,目前圖推理相關(guān)工作都忽視了視覺模態(tài)的圖信息。
然而,人類會通過視覺特征高效和準(zhǔn)確地完成圖任務(wù),例如判斷圖中是否存在環(huán)。
因此,探究視覺形態(tài)的圖信息在圖推理中的作用具有重要意義。
更具體地,將圖(Graph)繪制為圖片(Image),是否能賦予模型特殊的推理能力呢?這些圖片(稱為視覺圖 Visual Graph)是否能增強現(xiàn)有的基于其他模態(tài)的圖推理模型呢?
為了回答這些問題,來自香港科技大學(xué)和南方科技大學(xué)的研究團(tuán)隊構(gòu)建了首個包含視覺圖的推理問答數(shù)據(jù)集GITQA,并在GPT-4 turbo,GPT-4V等開源模型和Vicuna
原文鏈接:7B模型超越GPT4-V!港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA:視覺圖可提升推理能力
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。