AIGC動態歡迎閱讀
原標題:多模態CoT思維鏈架構來了,現已開源|來自廈大&騰訊優圖
關鍵字:騰訊,任務,模塊,生成器,信息
文章來源:量子位
內容字數:6586字
內容摘要:
Happy 投稿量子位 | 公眾號 QbitAI多模態大模型,也有自己的CoT思維鏈了!
廈門大學&騰訊優圖團隊提出一種名為“領唱員(Cantor)”的決策感知多模態思維鏈架構,無需額外訓練,性能大幅提升。
在 ScienceQA 上,基于GPT-3.5的Cantor準確率達到了82.39%,相比基于GPT-3.5的思維鏈方法提升了4.08%。
在更具挑戰性的MathVista上,基于Gemini的Cantor準確率比原始Gemini提高了5.9%。
目前Cantor論文已上傳arXiv,代碼也已經開源。(地址在文末領取)?????
多模態專屬思維鏈思想鏈(Chain-of-Thought, CoT)是一種廣泛應用的提示方法,通過添加中間推理步驟,可以顯著增強大模型的推理能力。
然而,在視覺推理任務中,模型不僅需要把握問題背后的總體邏輯,還需結合圖像信息進行具體分析。
多模態思維鏈應運而生。
現有的多模態思維鏈方法通常將問題分解為多個相關的子任務,并調用各種外部工具依次處理。
然而,由于視覺信息不足和低級感知工具的局限性,這種范式在決策中面臨潛在的“決策幻覺”,以及低級感知工具無法提供
原文鏈接:多模態CoT思維鏈架構來了,現已開源|來自廈大&騰訊優圖
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...