OCR終結(jié)了？曠視提出支持文檔級(jí)OCR的多模態(tài)大模型，支持中英文，已開源！

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OCR終結(jié)了？曠視提出支持文檔級(jí)OCR的多模態(tài)大模型，支持中英文，已開源！
關(guān)鍵字：詞表,模型,視覺,能力,圖片
文章來源：量子位
內(nèi)容字?jǐn)?shù)：2522字

內(nèi)容摘要：

國(guó)科大&曠視團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI想將一份文檔圖片轉(zhuǎn)換成Markdown格式？
以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——
這一次，只需一句話命令，多模態(tài)大模型Vary直接端到端輸出結(jié)果：
無論是中英文的大段文字：
還是包含了公式的文檔圖片：
又或是手機(jī)頁面截圖：
甚至可以將圖片中的表格轉(zhuǎn)換成latex格式：
當(dāng)然，作為多模大模型，通用能力的保持也是必須的：
Vary表現(xiàn)出了很大的潛力和極高的上限，OCR可以不再需要冗長(zhǎng)的pipline，直接端到端輸出，且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。
通過大模型極強(qiáng)的語言先驗(yàn)，這種架構(gòu)還可以避免OCR中的易錯(cuò)字，比如“杠桿”和“杜桿”等，對(duì)于模糊文檔，也有望在語言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的OCR效果。
項(xiàng)目一出，引發(fā)了不少網(wǎng)友的關(guān)注，有網(wǎng)友看后直呼“kill the game！”
那么這樣的效果，是如何做到的呢？
受大模型啟發(fā)打造目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說視覺詞表。確實(shí)，在400M圖像文本對(duì)訓(xùn)練的

原文鏈接：OCR終結(jié)了？曠視提出支持文檔級(jí)OCR的多模態(tài)大模型，支持中英文，已開源！