阿里通義實驗室高級算法工程師文束：mPLUG-DocOwl：多模態(tài)文檔理解大模型

AIGC動態(tài)2年前 (2024)發(fā)布算法邦

AIGC動態(tài)歡迎閱讀

原標題：阿里通義實驗室高級算法工程師文束：mPLUG-DocOwl：多模態(tài)文檔理解大模型
關鍵字：模型,阿里巴巴,算法,編碼器,視覺
文章來源：算法邦
內(nèi)容字數(shù)：1803字

內(nèi)容摘要：

1月17日晚7點，智猩猩推出「多模態(tài)大模型線上閉門會」。本次閉門會由阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品，并聚焦于大語言模型工具調用 ControlLLM、長視頻理解視覺語言模型 LLaMA-VID和多模態(tài)文檔理解大模型 mPLUG-DocOwl，香港科技大學在讀博士劉兆洋、香港中文大學在讀博士李彥瑋和阿里巴巴通義實驗室高級算法工程師文束將參與主講。
其中，文束將圍繞主題《mPLUG-DocOwl：多模態(tài)文檔理解大模型》進行直播講解。
通過對齊視覺編碼器和大型語言模型，多模態(tài)大模型在通用視覺理解上取得了不錯的效果，甚至實現(xiàn)了初步的文字識別能力。然而，由于采用的是低分辨率編碼器，他們依舊難以編碼富含文字信息的高分辨率(>1k x 1k)的文檔類型圖片。
為了避免重新訓練高分辨率編碼器帶來的訓練代價，我們提出一種形狀適應的切圖模型將高分辨率圖片切割為多個子圖，并由語言模型來理解子圖之間的關系。通過統(tǒng)一多個文檔理解數(shù)據(jù)集的任務形式，搭配精心設計的兩個輔助學習任務，我們的模型經(jīng)過小參數(shù)量的微調在多個文檔理解測試集上達到了 ocr-free 的 SOTA 效果。
文束目前是阿里巴

原文鏈接：阿里通義實驗室高級算法工程師文束：mPLUG-DocOwl：多模態(tài)文檔理解大模型