国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

SmolDocling

AI工具9個(gè)月前更新 AI工具集

1,094 0 0

SmolDocling – 輕量級(jí)的多模態(tài)文檔處理模型

SmolDocling是什么

SmolDocling（SmolDocling-256M-preview）是一款高效且輕量化的多模態(tài)文檔處理模型，能夠?qū)⑽臋n圖像轉(zhuǎn)換為結(jié)構(gòu)化文本。該模型支持識(shí)別文本、公式、圖表等多種元素，廣泛適用于學(xué)術(shù)論文、技術(shù)報(bào)告等各種類型的文檔。其參數(shù)量?jī)H為256M，推理速度極快，在A100 GPU上處理每頁(yè)文檔僅需0.35秒，并與Docling兼容，能夠?qū)С龆喾N格式。

SmolDocling

SmolDocling的主要功能

多模態(tài)文檔轉(zhuǎn)換：高效將圖像文檔轉(zhuǎn)化為結(jié)構(gòu)化文本，適用于科學(xué)和非科學(xué)文獻(xiàn)。
快速推理：在A100 GPU上，每頁(yè)文檔處理時(shí)間僅需0.35秒，顯存使用不到500MB。
OCR與布局識(shí)別：具備光學(xué)字符識(shí)別（OCR）功能，能夠保持文檔結(jié)構(gòu)和元素的邊界框。
復(fù)雜元素識(shí)別：識(shí)別代碼塊、數(shù)學(xué)公式、圖表和表格等復(fù)雜文檔要素。
與Docling無(wú)縫集成：支持將結(jié)果導(dǎo)出為多種格式（如Markdown、HTML等），與Docling完全兼容。
指令支持：支持多種指令，如將頁(yè)面轉(zhuǎn)換為Docling格式、將圖表轉(zhuǎn)換為表格、將公式轉(zhuǎn)換為L(zhǎng)aTeX等。

SmolDocling的技術(shù)原理

輕量級(jí)設(shè)計(jì)：SmolDocling-256M-preview僅包含256M參數(shù)，專為文檔光學(xué)字符識(shí)別（OCR）和轉(zhuǎn)換而設(shè)計(jì)，能在消費(fèi)級(jí)GPU上高效處理文檔，處理每頁(yè)文檔的時(shí)間僅需0.35秒。
視覺(jué)骨干網(wǎng)絡(luò)：采用SigLIP base patch-16/512作為視覺(jué)骨干網(wǎng)絡(luò)，參數(shù)量為93M，能夠高效處理圖像輸入，通過(guò)像素壓縮技術(shù)將每個(gè)512×512的圖像塊壓縮為64個(gè)視覺(jué)標(biāo)記，顯著降低計(jì)算資源需求。
文本編碼器：使用SmolLM-2作為文本編碼器，參數(shù)量為135M，處理文本輸入并與視覺(jué)信息融合。
多模態(tài)融合與輸出：可接收?qǐng)D像和文本的多模態(tài)輸入，生成結(jié)構(gòu)化文本輸出，支持多種文檔處理功能，如將文檔圖像轉(zhuǎn)為結(jié)構(gòu)化文本、提取圖表和表格信息、將數(shù)學(xué)公式轉(zhuǎn)換為L(zhǎng)aTeX格式等。
優(yōu)化的數(shù)據(jù)集與訓(xùn)練策略：訓(xùn)練數(shù)據(jù)集涵蓋科學(xué)與非科學(xué)文檔，文檔理解占比達(dá)到41%。訓(xùn)練過(guò)程中采用更高的像素標(biāo)記率（4096像素/標(biāo)記），顯著提升處理效率。

SmolDocling的項(xiàng)目地址

HuggingFace模型庫(kù)：https://huggingface.co/ds4sd/SmolDocling-256M-preview
arXiv技術(shù)論文：https://arxiv.org/pdf/2503.11576

SmolDocling的應(yīng)用場(chǎng)景

文檔轉(zhuǎn)換與數(shù)字化：SmolDocling-256M-preview能夠高效將圖像形式的文檔轉(zhuǎn)化為結(jié)構(gòu)化文本，同時(shí)保留文檔的原始布局及復(fù)雜元素（如代碼塊、數(shù)學(xué)公式、圖表等）。支持多種輸出格式，包括Markdown、HTML等，非常適合文檔的數(shù)字化處理。
科學(xué)與非科學(xué)文檔處理：能夠處理各類非科學(xué)內(nèi)容（如商業(yè)文檔、專利文件等），高效識(shí)別并提取文檔中的關(guān)鍵信息，如公式、圖表和表格。
快速OCR與布局識(shí)別：提供高效的光學(xué)字符識(shí)別（OCR）功能，準(zhǔn)確從圖像中提取文本，同時(shí)保留文檔的結(jié)構(gòu)和元素邊界框。
移動(dòng)與低資源設(shè)備支持：SmolDocling-256M-preview可在移動(dòng)設(shè)備或資源受限的環(huán)境中運(yùn)行，如智能手機(jī)或便攜式計(jì)算機(jī)。

閱讀原文