7B模型超越GPT4-V！港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA：視覺圖可提升推理能力

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：7B模型超越GPT4-V！港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA：視覺圖可提升推理能力
關(guān)鍵字：模型,視覺,任務(wù),數(shù)據(jù),文本
文章來源：新智元
內(nèi)容字?jǐn)?shù)：9253字

內(nèi)容摘要：

新智元報道編輯：LRS 好困
【新智元導(dǎo)讀】研究人員證實了Visual Graph在圖推理中的作用，以及其可以和文本模態(tài)相互增強。圖神經(jīng)網(wǎng)絡(luò)（GNNs）擅長利用圖的結(jié)構(gòu)信息進(jìn)行推理，但它們通常需要特定于領(lǐng)域的調(diào)優(yōu)才能達(dá)到峰值性能，這阻礙了它們在不同任務(wù)之間的泛化性。
相比之下，基于大型語言模型（LLM）的圖推理具有更強的跨任務(wù)和泛化能力，但它們在特定任務(wù)上的性能往往遜色于專用的圖神經(jīng)網(wǎng)絡(luò)模型。
無論是以圖神經(jīng)網(wǎng)絡(luò)為代表的傳統(tǒng)圖推理還是新興的基于大型語言模型的圖推理，目前圖推理相關(guān)工作都忽視了視覺模態(tài)的圖信息。
然而，人類會通過視覺特征高效和準(zhǔn)確地完成圖任務(wù)，例如判斷圖中是否存在環(huán)。
因此，探究視覺形態(tài)的圖信息在圖推理中的作用具有重要意義。
更具體地，將圖（Graph）繪制為圖片（Image），是否能賦予模型特殊的推理能力呢？這些圖片（稱為視覺圖 Visual Graph）是否能增強現(xiàn)有的基于其他模態(tài)的圖推理模型呢？
為了回答這些問題，來自香港科技大學(xué)和南方科技大學(xué)的研究團(tuán)隊構(gòu)建了首個包含視覺圖的推理問答數(shù)據(jù)集GITQA，并在GPT-4 turbo，GPT-4V等開源模型和Vicuna

原文鏈接：7B模型超越GPT4-V！港科大等發(fā)布「圖推理問答」數(shù)據(jù)集GITQA：視覺圖可提升推理能力

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文