“像人類一樣思考,獲得真正通用的推理能力”。
原標題:o3 都要來了還能做點什么?人大&螞蟻團隊:自下而上數據合成讓大模型能夠多模態推理
文章來源:AI科技評論
內容字數:9564字
高效視覺推理:EMNLP 2024錄用論文解讀
本文總結了中國人民大學高瓴人工智能學院和螞蟻技術研究院團隊發表于EMNLP 2024的論文“From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis”,該論文提出了一種“由淺入深”的即插即用視覺推理框架,并配套開發了一種高效的自下而上數據合成方法,以解決當前視覺語言模型在多模態推理方面的局限性。
1. 視覺語言模型的“致命弱點”
盡管視覺語言模型在許多任務上表現出色,但它們在一些看似簡單的問題上卻經常出錯,例如識別細微物體、準確計數以及理解圖像中的文字信息。研究團隊將這些問題歸納為三個方面: “老花眼”(缺乏對局部細節的精確感知能力),“注意力渙散”(在復雜背景下計數容易出錯),“文盲”(對圖像中文字信息的捕捉能力較差)。
2. “由淺入深”:即插即用的視覺推理范式
為了解決這些問題,研究團隊提出了一種“由淺入深”的多步視覺推理框架。該框架將復雜問題分解為一系列簡單的子問題,通過逐步推理得出答案。這種方法具有三大優勢:首先,它降低了任務難度;其次,推理鏈路透明,結果可解釋;最后,它即插即用,無需額外訓練即可應用于不同的視覺語言模型。
3. “由淺入深”推理框架實現細節
該框架包含四個工具:定位工具、高亮工具、文本工具和問答工具,分別模擬人類處理視覺信息的特定能力。通過這些工具的協同工作,框架能夠逐步分解問題,并最終生成答案。其任務拆解過程是動態的,每一步都依賴于之前的步驟,更貼近人類的認知過程。
4. 自下而上的數據合成方法
為了解決視覺推理數據匱乏的問題,研究團隊開發了一種自下而上的數據合成方法。該方法通過四個模塊:實體識別、多級節點構建、子問題設計和主問題合成,自動生成高質量的視覺推理鏈數據。該方法已用于構建并開源了一個包含百萬量級推理鏈的數據集。
5. 實驗效果
實驗結果表明,“由淺入深”推理框架在多個基準測試集上均實現了顯著且穩定的性能提升,并且在不同架構的視覺語言模型上都具有良好的適應性。此外,更大規模的數據集能夠進一步提升模型性能,而該團隊的自動化合成方法能夠以極低的成本生成大規模高質量數據。
6. 結語
該研究提出了一種新的視覺推理范式和高效的數據合成方法,為提升視覺語言模型的推理能力提供了新的思路。未來,研究團隊將繼續探索更復雜的推理模式和更廣泛的應用場景,以期實現更強大的多模態推理能力。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。