dots.ocr – 小紅書hi lab開源的多語言文檔解析模型
dots.ocr 是小紅書 hi lab 推出的一款開源多語言文檔布局解析模型,基于 17 億參數(shù)的視覺語言模型(VLM),集成了布局檢測與內(nèi)容識別功能,并能保證良好的閱讀順序。該模型性能卓越,推理速度快,且能通過調(diào)整輸入提示詞靈活切換任務(wù),適用于多種文檔解析場景。
### 深入解析 dots.ocr
dots.ocr 是由小紅書 hi lab 傾力打造的開源多語言文檔解析模型。它并非簡單地進行文本識別,而是基于強大的視覺語言模型(VLM)構(gòu)建,該模型擁有 17 億參數(shù),能夠同時處理文檔的布局檢測和內(nèi)容識別,并確保輸出結(jié)果的閱讀順序符合人類習(xí)慣。 盡管模型規(guī)模適中,dots.ocr 的表現(xiàn)卻十分出色,在 OmniDocBench 等基準測試中成績斐然,甚至在公式識別方面能與 Doubao-1.5 和 gemini2.5-pro 等更大型模型相媲美,尤其在小語種文檔解析方面展現(xiàn)出顯著優(yōu)勢。 此外,dots.ocr 架構(gòu)簡潔高效,僅需更改輸入提示詞即可切換不同任務(wù),推理速度快,能夠滿足各種文檔解析需求。
### dots.ocr 的核心功能
* **多語言文檔解析**:支持多種語言,可以解析文本、表格、公式、圖片等多種文檔元素。
* **一體化布局檢測與內(nèi)容識別**:在一個視覺語言模型中同時完成布局檢測和內(nèi)容識別,并保持內(nèi)容的閱讀順序。
* **高速推理**:基于17億參數(shù)的視覺語言模型,推理速度快,適合處理大規(guī)模文檔。
* **任務(wù)靈活切換**:通過更改輸入提示詞,可以輕松切換任務(wù),例如布局檢測、內(nèi)容識別等。
* **多樣化輸出格式**:支持 JSON、Markdown 等多種輸出格式,并提供布局可視化圖像。
### 了解 dots.ocr 的技術(shù)
dots.ocr 的強大性能得益于其獨特的技術(shù)架構(gòu):
* **視覺語言模型(VLM)**: 核心在于 17 億參數(shù)的視覺語言模型,該模型巧妙地融合了視覺編碼器和語言模型的優(yōu)勢。 視覺編碼器負責從文檔圖像中提取視覺特征,而語言模型則負責理解和生成文本內(nèi)容。
* **三階段訓(xùn)練流程**:
* **視覺編碼器預(yù)訓(xùn)練**: 從頭開始訓(xùn)練一個 12 億參數(shù)的視覺編碼器,使用大規(guī)模圖文對數(shù)據(jù)集。
* **視覺編碼器持續(xù)預(yù)訓(xùn)練**: 引入高分辨率輸入支持,并與語言模型對齊,進一步增強視覺特征提取能力。
* **VLM 訓(xùn)練**: 利用純 OCR 數(shù)據(jù)集進行訓(xùn)練,優(yōu)化模型在文檔解析任務(wù)上的表現(xiàn)。
* **監(jiān)督微調(diào)(SFT)**: 采用多樣化的數(shù)據(jù)集進行監(jiān)督微調(diào),包括人工標注數(shù)據(jù)、合成數(shù)據(jù)和開源數(shù)據(jù)集。 通過迭代式數(shù)據(jù)飛輪機制,持續(xù)優(yōu)化模型性能,提升數(shù)據(jù)質(zhì)量和多樣性。 此外,dots.ocr 采用“大模型排序+規(guī)則后驗”的方法修正閱讀順序,確保布局元素的順序符合人類閱讀習(xí)慣。
* **任務(wù)切換機制**: 通過輸入提示詞(prompt)來指定模型的任務(wù),例如布局檢測、內(nèi)容識別、公式解析等。 提示詞可以引導(dǎo)模型生成相應(yīng)的輸出,從而靈活地應(yīng)對不同的文檔解析需求。
### 探索 dots.ocr 的世界
* **項目地址**:
* GitHub 倉庫: https://github.com/rednote-hilab/dots.ocr
* HuggingFace 模型庫: https://huggingface.co/rednote-hilab/dots.ocr
* 在線體驗 Demo: https://dotsocr.xiaohongshu.com/
### dots.ocr 的應(yīng)用領(lǐng)域
* **文檔數(shù)字化與內(nèi)容提取**: 將紙質(zhì)文檔或 PDF 文件轉(zhuǎn)換為可編輯的數(shù)字格式,精準提取文本、表格、公式等結(jié)構(gòu)化內(nèi)容,助力文檔電子化管理。
* **學(xué)術(shù)研究與出版**: 快速解析學(xué)術(shù)論文中的公式、圖表和文本,輔助研究人員高效獲取關(guān)鍵信息,加速學(xué)術(shù)研究和知識傳播。
* **金融與財務(wù)文檔處理**: 自動提取財務(wù)報告中的數(shù)據(jù)和表格,支持金融數(shù)據(jù)分析和合規(guī)檢查,提升金融業(yè)務(wù)處理效率。
* **教育領(lǐng)域**: 解析教材、試卷等教育資料,提取題目和答案,輔助教學(xué)內(nèi)容數(shù)字化和在線化,支持教育信息化發(fā)展。
* **企業(yè)內(nèi)部文檔管理**: 支持處理企業(yè)內(nèi)部的會議記錄、項目報告等文檔,提取關(guān)鍵信息,優(yōu)化企業(yè)運營效率。
### 常見問題解答
**Q: dots.ocr 支持哪些輸出格式?**
A: dots.ocr 支持多種輸出格式,包括 JSON 和 Markdown,并且還提供布局可視化圖像。
**Q: dots.ocr 的推理速度如何?**
A: dots.ocr 基于17億參數(shù)的視覺語言模型,推理速度快,適合大規(guī)模文檔處理。
**Q: 如何切換 dots.ocr 的任務(wù)?**
A: 通過更改輸入提示詞,可以輕松切換 dots.ocr 的任務(wù),例如布局檢測、內(nèi)容識別等。

粵公網(wǎng)安備 44011502001135號