SmolDocling – 輕量級(jí)的多模態(tài)文檔處理模型
SmolDocling是什么
SmolDocling(SmolDocling-256M-preview)是一款高效且輕量化的多模態(tài)文檔處理模型,能夠?qū)⑽臋n圖像轉(zhuǎn)換為結(jié)構(gòu)化文本。該模型支持識(shí)別文本、公式、圖表等多種元素,廣泛適用于學(xué)術(shù)論文、技術(shù)報(bào)告等各種類型的文檔。其參數(shù)量?jī)H為256M,推理速度極快,在A100 GPU上處理每頁(yè)文檔僅需0.35秒,并與Docling兼容,能夠?qū)С龆喾N格式。
SmolDocling的主要功能
- 多模態(tài)文檔轉(zhuǎn)換:高效將圖像文檔轉(zhuǎn)化為結(jié)構(gòu)化文本,適用于科學(xué)和非科學(xué)文獻(xiàn)。
- 快速推理:在A100 GPU上,每頁(yè)文檔處理時(shí)間僅需0.35秒,顯存使用不到500MB。
- OCR與布局識(shí)別:具備光學(xué)字符識(shí)別(OCR)功能,能夠保持文檔結(jié)構(gòu)和元素的邊界框。
- 復(fù)雜元素識(shí)別:識(shí)別代碼塊、數(shù)學(xué)公式、圖表和表格等復(fù)雜文檔要素。
- 與Docling無(wú)縫集成:支持將結(jié)果導(dǎo)出為多種格式(如Markdown、HTML等),與Docling完全兼容。
- 指令支持:支持多種指令,如將頁(yè)面轉(zhuǎn)換為Docling格式、將圖表轉(zhuǎn)換為表格、將公式轉(zhuǎn)換為L(zhǎng)aTeX等。
SmolDocling的技術(shù)原理
- 輕量級(jí)設(shè)計(jì):SmolDocling-256M-preview僅包含256M參數(shù),專為文檔光學(xué)字符識(shí)別(OCR)和轉(zhuǎn)換而設(shè)計(jì),能在消費(fèi)級(jí)GPU上高效處理文檔,處理每頁(yè)文檔的時(shí)間僅需0.35秒。
- 視覺(jué)骨干網(wǎng)絡(luò):采用SigLIP base patch-16/512作為視覺(jué)骨干網(wǎng)絡(luò),參數(shù)量為93M,能夠高效處理圖像輸入,通過(guò)像素壓縮技術(shù)將每個(gè)512×512的圖像塊壓縮為64個(gè)視覺(jué)標(biāo)記,顯著降低計(jì)算資源需求。
- 文本編碼器:使用SmolLM-2作為文本編碼器,參數(shù)量為135M,處理文本輸入并與視覺(jué)信息融合。
- 多模態(tài)融合與輸出:可接收?qǐng)D像和文本的多模態(tài)輸入,生成結(jié)構(gòu)化文本輸出,支持多種文檔處理功能,如將文檔圖像轉(zhuǎn)為結(jié)構(gòu)化文本、提取圖表和表格信息、將數(shù)學(xué)公式轉(zhuǎn)換為L(zhǎng)aTeX格式等。
- 優(yōu)化的數(shù)據(jù)集與訓(xùn)練策略:訓(xùn)練數(shù)據(jù)集涵蓋科學(xué)與非科學(xué)文檔,文檔理解占比達(dá)到41%。訓(xùn)練過(guò)程中采用更高的像素標(biāo)記率(4096像素/標(biāo)記),顯著提升處理效率。
SmolDocling的項(xiàng)目地址
- HuggingFace模型庫(kù):https://huggingface.co/ds4sd/SmolDocling-256M-preview
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.11576
SmolDocling的應(yīng)用場(chǎng)景
- 文檔轉(zhuǎn)換與數(shù)字化:SmolDocling-256M-preview能夠高效將圖像形式的文檔轉(zhuǎn)化為結(jié)構(gòu)化文本,同時(shí)保留文檔的原始布局及復(fù)雜元素(如代碼塊、數(shù)學(xué)公式、圖表等)。支持多種輸出格式,包括Markdown、HTML等,非常適合文檔的數(shù)字化處理。
- 科學(xué)與非科學(xué)文檔處理:能夠處理各類非科學(xué)內(nèi)容(如商業(yè)文檔、專利文件等),高效識(shí)別并提取文檔中的關(guān)鍵信息,如公式、圖表和表格。
- 快速OCR與布局識(shí)別:提供高效的光學(xué)字符識(shí)別(OCR)功能,準(zhǔn)確從圖像中提取文本,同時(shí)保留文檔的結(jié)構(gòu)和元素邊界框。
- 移動(dòng)與低資源設(shè)備支持:SmolDocling-256M-preview可在移動(dòng)設(shè)備或資源受限的環(huán)境中運(yùn)行,如智能手機(jī)或便攜式計(jì)算機(jī)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...