阿里通義實(shí)驗(yàn)室高級算法工程師文束:mPLUG-DocOwl:多模態(tài)文檔理解大模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:阿里通義實(shí)驗(yàn)室高級算法工程師文束:mPLUG-DocOwl:多模態(tài)文檔理解大模型
關(guān)鍵字:模型,阿里巴巴,算法,編碼器,視覺
文章來源:算法邦
內(nèi)容字?jǐn)?shù):1803字
內(nèi)容摘要:
1月17日晚7點(diǎn),智猩猩推出「多模態(tài)大模型線上閉門會」。本次閉門會由阿里巴巴通義實(shí)驗(yàn)室 NLP 高級算法專家嚴(yán)明參與出品,并聚焦于大語言模型工具調(diào)用 ControlLLM、長視頻理解視覺語言模型 LLaMA-VID和多模態(tài)文檔理解大模型 mPLUG-DocOwl,香港科技大學(xué)在讀博士劉兆洋、香港中文大學(xué)在讀博士李彥瑋和阿里巴巴通義實(shí)驗(yàn)室高級算法工程師文束將參與主講。
其中,文束將圍繞主題《mPLUG-DocOwl:多模態(tài)文檔理解大模型》進(jìn)行直播講解。
通過對齊視覺編碼器和大型語言模型,多模態(tài)大模型在通用視覺理解上取得了不錯的效果,甚至實(shí)現(xiàn)了初步的文字識別能力。然而,由于采用的是低分辨率編碼器,他們依舊難以編碼富含文字信息的高分辨率(>1k x 1k)的文檔類型圖片。
為了避免重新訓(xùn)練高分辨率編碼器帶來的訓(xùn)練代價,我們提出一種形狀適應(yīng)的切圖模型將高分辨率圖片切割為多個子圖,并由語言模型來理解子圖之間的關(guān)系。通過統(tǒng)一多個文檔理解數(shù)據(jù)集的任務(wù)形式,搭配精心設(shè)計的兩個輔助學(xué)習(xí)任務(wù),我們的模型經(jīng)過小參數(shù)量的微調(diào)在多個文檔理解測試集上達(dá)到了 ocr-free 的 SOTA 效果。
文束目前是阿里巴
原文鏈接:阿里通義實(shí)驗(yàn)室高級算法工程師文束:mPLUG-DocOwl:多模態(tài)文檔理解大模型
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計算機(jī)視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會。