o3 都要來了還能做點什么?人大&螞蟻團隊:自下而上數(shù)據(jù)合成讓大模型能夠多模態(tài)推理
“像人類一樣思考,獲得真正通用的推理能力”。
原標題:o3 都要來了還能做點什么?人大&螞蟻團隊:自下而上數(shù)據(jù)合成讓大模型能夠多模態(tài)推理
文章來源:AI科技評論
內(nèi)容字數(shù):9564字
高效視覺推理:EMNLP 2024錄用論文解讀
本文總結(jié)了中國人民大學(xué)高瓴人工智能學(xué)院和螞蟻技術(shù)研究院團隊發(fā)表于EMNLP 2024的論文“From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis”,該論文提出了一種“由淺入深”的即插即用視覺推理框架,并配套開發(fā)了一種高效的自下而上數(shù)據(jù)合成方法,以解決當(dāng)前視覺語言模型在多模態(tài)推理方面的局限性。
1. 視覺語言模型的“致命弱點”
盡管視覺語言模型在許多任務(wù)上表現(xiàn)出色,但它們在一些看似簡單的問題上卻經(jīng)常出錯,例如識別細微物體、準確計數(shù)以及理解圖像中的文字信息。研究團隊將這些問題歸納為三個方面: “老花眼”(缺乏對局部細節(jié)的精確感知能力),“注意力渙散”(在復(fù)雜背景下計數(shù)容易出錯),“文盲”(對圖像中文字信息的捕捉能力較差)。
2. “由淺入深”:即插即用的視覺推理范式
為了解決這些問題,研究團隊提出了一種“由淺入深”的多步視覺推理框架。該框架將復(fù)雜問題分解為一系列簡單的子問題,通過逐步推理得出答案。這種方法具有三大優(yōu)勢:首先,它降低了任務(wù)難度;其次,推理鏈路透明,結(jié)果可解釋;最后,它即插即用,無需額外訓(xùn)練即可應(yīng)用于不同的視覺語言模型。
3. “由淺入深”推理框架實現(xiàn)細節(jié)
該框架包含四個工具:定位工具、高亮工具、文本工具和問答工具,分別模擬人類處理視覺信息的特定能力。通過這些工具的協(xié)同工作,框架能夠逐步分解問題,并最終生成答案。其任務(wù)拆解過程是動態(tài)的,每一步都依賴于之前的步驟,更貼近人類的認知過程。
4. 自下而上的數(shù)據(jù)合成方法
為了解決視覺推理數(shù)據(jù)匱乏的問題,研究團隊開發(fā)了一種自下而上的數(shù)據(jù)合成方法。該方法通過四個模塊:實體識別、多級節(jié)點構(gòu)建、子問題設(shè)計和主問題合成,自動生成高質(zhì)量的視覺推理鏈數(shù)據(jù)。該方法已用于構(gòu)建并開源了一個包含百萬量級推理鏈的數(shù)據(jù)集。
5. 實驗效果
實驗結(jié)果表明,“由淺入深”推理框架在多個基準測試集上均實現(xiàn)了顯著且穩(wěn)定的性能提升,并且在不同架構(gòu)的視覺語言模型上都具有良好的適應(yīng)性。此外,更大規(guī)模的數(shù)據(jù)集能夠進一步提升模型性能,而該團隊的自動化合成方法能夠以極低的成本生成大規(guī)模高質(zhì)量數(shù)據(jù)。
6. 結(jié)語
該研究提出了一種新的視覺推理范式和高效的數(shù)據(jù)合成方法,為提升視覺語言模型的推理能力提供了新的思路。未來,研究團隊將繼續(xù)探索更復(fù)雜的推理模式和更廣泛的應(yīng)用場景,以期實現(xiàn)更強大的多模態(tài)推理能力。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。