OCR終結(jié)了?曠視提出支持文檔級(jí)OCR的多模態(tài)大模型,支持中英文,已開源!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OCR終結(jié)了?曠視提出支持文檔級(jí)OCR的多模態(tài)大模型,支持中英文,已開源!
關(guān)鍵字:詞表,模型,視覺,能力,圖片
文章來源:量子位
內(nèi)容字?jǐn)?shù):2522字
內(nèi)容摘要:
國(guó)科大&曠視團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI想將一份文檔圖片轉(zhuǎn)換成Markdown格式?
以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——
這一次,只需一句話命令,多模態(tài)大模型Vary直接端到端輸出結(jié)果:
無論是中英文的大段文字:
還是包含了公式的文檔圖片:
又或是手機(jī)頁(yè)面截圖:
甚至可以將圖片中的表格轉(zhuǎn)換成latex格式:
當(dāng)然,作為多模大模型,通用能力的保持也是必須的:
Vary表現(xiàn)出了很大的潛力和極高的上限,OCR可以不再需要冗長(zhǎng)的pipline,直接端到端輸出,且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。
通過大模型極強(qiáng)的語(yǔ)言先驗(yàn),這種架構(gòu)還可以避免OCR中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語(yǔ)言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的OCR效果。
項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼“kill the game!”
那么這樣的效果,是如何做到的呢?
受大模型啟發(fā)打造目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說視覺詞表。確實(shí),在400M圖像文本對(duì)訓(xùn)練的
原文鏈接:OCR終結(jié)了?曠視提出支持文檔級(jí)OCR的多模態(tài)大模型,支持中英文,已開源!
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破