SmolDocling – 輕量級的多模態文檔處理模型
SmolDocling是什么
SmolDocling(SmolDocling-256M-preview)是一款高效且輕量化的多模態文檔處理模型,能夠將文檔圖像轉換為結構化文本。該模型支持識別文本、公式、圖表等多種元素,廣泛適用于學術論文、技術報告等各種類型的文檔。其參數量僅為256M,推理速度極快,在A100 GPU上處理每頁文檔僅需0.35秒,并與Docling兼容,能夠導出多種格式。
SmolDocling的主要功能
- 多模態文檔轉換:高效將圖像文檔轉化為結構化文本,適用于科學和非科學文獻。
- 快速推理:在A100 GPU上,每頁文檔處理時間僅需0.35秒,顯存使用不到500MB。
- OCR與布局識別:具備光學字符識別(OCR)功能,能夠保持文檔結構和元素的邊界框。
- 復雜元素識別:識別代碼塊、數學公式、圖表和表格等復雜文檔要素。
- 與Docling無縫集成:支持將結果導出為多種格式(如Markdown、HTML等),與Docling完全兼容。
- 指令支持:支持多種指令,如將頁面轉換為Docling格式、將圖表轉換為表格、將公式轉換為LaTeX等。
SmolDocling的技術原理
- 輕量級設計:SmolDocling-256M-preview僅包含256M參數,專為文檔光學字符識別(OCR)和轉換而設計,能在消費級GPU上高效處理文檔,處理每頁文檔的時間僅需0.35秒。
- 視覺骨干網絡:采用SigLIP base patch-16/512作為視覺骨干網絡,參數量為93M,能夠高效處理圖像輸入,通過像素壓縮技術將每個512×512的圖像塊壓縮為64個視覺標記,顯著降低計算資源需求。
- 文本編碼器:使用SmolLM-2作為文本編碼器,參數量為135M,處理文本輸入并與視覺信息融合。
- 多模態融合與輸出:可接收圖像和文本的多模態輸入,生成結構化文本輸出,支持多種文檔處理功能,如將文檔圖像轉為結構化文本、提取圖表和表格信息、將數學公式轉換為LaTeX格式等。
- 優化的數據集與訓練策略:訓練數據集涵蓋科學與非科學文檔,文檔理解占比達到41%。訓練過程中采用更高的像素標記率(4096像素/標記),顯著提升處理效率。
SmolDocling的項目地址
- HuggingFace模型庫:https://huggingface.co/ds4sd/SmolDocling-256M-preview
- arXiv技術論文:https://arxiv.org/pdf/2503.11576
SmolDocling的應用場景
- 文檔轉換與數字化:SmolDocling-256M-preview能夠高效將圖像形式的文檔轉化為結構化文本,同時保留文檔的原始布局及復雜元素(如代碼塊、數學公式、圖表等)。支持多種輸出格式,包括Markdown、HTML等,非常適合文檔的數字化處理。
- 科學與非科學文檔處理:能夠處理各類非科學內容(如商業文檔、專利文件等),高效識別并提取文檔中的關鍵信息,如公式、圖表和表格。
- 快速OCR與布局識別:提供高效的光學字符識別(OCR)功能,準確從圖像中提取文本,同時保留文檔的結構和元素邊界框。
- 移動與低資源設備支持:SmolDocling-256M-preview可在移動設備或資源受限的環境中運行,如智能手機或便攜式計算機。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...