多模態(tài)CoT思維鏈架構(gòu)來了,現(xiàn)已開源|來自廈大&騰訊優(yōu)圖
AIGC動態(tài)歡迎閱讀
原標題:多模態(tài)CoT思維鏈架構(gòu)來了,現(xiàn)已開源|來自廈大&騰訊優(yōu)圖
關(guān)鍵字:騰訊,任務,模塊,生成器,信息
文章來源:量子位
內(nèi)容字數(shù):6586字
內(nèi)容摘要:
Happy 投稿量子位 | 公眾號 QbitAI多模態(tài)大模型,也有自己的CoT思維鏈了!
廈門大學&騰訊優(yōu)圖團隊提出一種名為“領(lǐng)唱員(Cantor)”的決策感知多模態(tài)思維鏈架構(gòu),無需額外訓練,性能大幅提升。
在 ScienceQA 上,基于GPT-3.5的Cantor準確率達到了82.39%,相比基于GPT-3.5的思維鏈方法提升了4.08%。
在更具挑戰(zhàn)性的MathVista上,基于Gemini的Cantor準確率比原始Gemini提高了5.9%。
目前Cantor論文已上傳arXiv,代碼也已經(jīng)開源。(地址在文末領(lǐng)?。?????
多模態(tài)專屬思維鏈思想鏈(Chain-of-Thought, CoT)是一種廣泛應用的提示方法,通過添加中間推理步驟,可以顯著增強大模型的推理能力。
然而,在視覺推理任務中,模型不僅需要把握問題背后的總體邏輯,還需結(jié)合圖像信息進行具體分析。
多模態(tài)思維鏈應運而生。
現(xiàn)有的多模態(tài)思維鏈方法通常將問題分解為多個相關(guān)的子任務,并調(diào)用各種外部工具依次處理。
然而,由于視覺信息不足和低級感知工具的局限性,這種范式在決策中面臨潛在的“決策幻覺”,以及低級感知工具無法提供
原文鏈接:多模態(tài)CoT思維鏈架構(gòu)來了,現(xiàn)已開源|來自廈大&騰訊優(yōu)圖
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破