多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖
關(guān)鍵字：騰訊,任務(wù),模塊,生成器,信息
文章來源：量子位
內(nèi)容字?jǐn)?shù)：6586字

內(nèi)容摘要：

Happy 投稿量子位 | 公眾號 QbitAI多模態(tài)大模型，也有自己的CoT思維鏈了！
廈門大學(xué)&騰訊優(yōu)圖團(tuán)隊(duì)提出一種名為“領(lǐng)唱員（Cantor）”的決策感知多模態(tài)思維鏈架構(gòu)，無需額外訓(xùn)練，性能大幅提升。
在 ScienceQA 上，基于GPT-3.5的Cantor準(zhǔn)確率達(dá)到了82.39%，相比基于GPT-3.5的思維鏈方法提升了4.08%。
在更具挑戰(zhàn)性的MathVista上，基于Gemini的Cantor準(zhǔn)確率比原始Gemini提高了5.9%。
目前Cantor論文已上傳arXiv，代碼也已經(jīng)開源。（地址在文末領(lǐng)取）?????
多模態(tài)專屬思維鏈思想鏈（Chain-of-Thought, CoT）是一種廣泛應(yīng)用的提示方法，通過添加中間推理步驟，可以顯著增強(qiáng)大模型的推理能力。
然而，在視覺推理任務(wù)中，模型不僅需要把握問題背后的總體邏輯，還需結(jié)合圖像信息進(jìn)行具體分析。
多模態(tài)思維鏈應(yīng)運(yùn)而生。
現(xiàn)有的多模態(tài)思維鏈方法通常將問題分解為多個相關(guān)的子任務(wù)，并調(diào)用各種外部工具依次處理。
然而，由于視覺信息不足和低級感知工具的局限性，這種范式在決策中面臨潛在的“決策幻覺”，以及低級感知工具無法提供

原文鏈接：多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖