国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

MinerU

AI工具1年前 (2024)發(fā)布 AI工具集

MinerU是什么

MinerU是由上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)開(kāi)發(fā)的一款開(kāi)源智能數(shù)據(jù)提取工具，專注于高效解析和提取復(fù)雜的PDF文檔。該工具可以將包含圖像、公式、表格等多種元素的多模態(tài)PDF文檔轉(zhuǎn)換為易于分析的Markdown格式，同時(shí)支持從網(wǎng)頁(yè)和電子書(shū)中提取內(nèi)容，顯著提升AI語(yǔ)料的準(zhǔn)備效率。MinerU配備高精度的PDF解析工具鏈，能夠自動(dòng)識(shí)別亂碼，保持文檔結(jié)構(gòu)，并將公式轉(zhuǎn)換為L(zhǎng)aTeX格式，廣泛應(yīng)用于學(xué)術(shù)、財(cái)務(wù)、法律等多個(gè)領(lǐng)域，支持在CPU和GPU上運(yùn)行，兼容Windows、Linux和Mac平臺(tái)，性能卓越。

MinerU

MinerU的主要功能

PDF到Markdown轉(zhuǎn)換：將多種內(nèi)容類型的PDF文檔轉(zhuǎn)換為結(jié)構(gòu)化的Markdown格式，便于后續(xù)的編輯和分析。
多模態(tài)內(nèi)容處理：具備識(shí)別和處理PDF中的圖像、公式、表格和文本等多種內(nèi)容的能力。
結(jié)構(gòu)和格式保留：在轉(zhuǎn)換過(guò)程中，保留原始文檔的結(jié)構(gòu)和格式，包括標(biāo)題、段落和列表等。
公式識(shí)別與轉(zhuǎn)換：專門(mén)針對(duì)數(shù)學(xué)公式，能夠識(shí)別并轉(zhuǎn)換為L(zhǎng)aTeX格式，便于學(xué)術(shù)交流和技術(shù)文檔的使用。
去除干擾元素：自動(dòng)刪除頁(yè)眉、頁(yè)腳、腳注和頁(yè)碼等無(wú)關(guān)信息，凈化文檔內(nèi)容。
亂碼識(shí)別與處理：自動(dòng)檢測(cè)并糾正PDF文檔中的亂碼，提高信息提取的準(zhǔn)確性。
高質(zhì)量解析工具鏈：集成了先進(jìn)的PDF解析工具，包括布局檢測(cè)、公式檢測(cè)和光學(xué)字符識(shí)別（OCR），確保提取結(jié)果的高準(zhǔn)確度。

MinerU的技術(shù)原理

PDF文檔分類預(yù)處理：在處理PDF文檔之前，MinerU首先對(duì)文檔進(jìn)行分類，識(shí)別其類型（如文本型、圖層型或掃描版PDF），并進(jìn)行相應(yīng)的預(yù)處理，如檢測(cè)亂碼和識(shí)別掃描文檔。
模型解析與內(nèi)容提取：
- 布局檢測(cè)：采用基于深度學(xué)習(xí)的模型，如LayoutLMv3，進(jìn)行區(qū)域檢測(cè)，識(shí)別文檔中的圖像、表格、標(biāo)題和文本等不同區(qū)域。
- 公式檢測(cè)：利用自研的YOLOv8模型識(shí)別文檔中的數(shù)學(xué)公式，區(qū)分行內(nèi)和行間公式。
- 公式識(shí)別：通過(guò)UniMERNet模型解析數(shù)學(xué)公式，并將其轉(zhuǎn)換成LaTeX格式。
- 光學(xué)字符識(shí)別（OCR）：使用PaddleOCR等OCR技術(shù)識(shí)別文檔中的文本內(nèi)容。
管線處理：將模型解析得到的數(shù)據(jù)輸入處理管線，進(jìn)行后處理，包括：
- 確定塊級(jí)別的順序。
- 刪除無(wú)用元素。
- 依據(jù)版面對(duì)內(nèi)容進(jìn)行排序和拼裝，以確保正文的連貫性。
- 進(jìn)行坐標(biāo)修復(fù)、高iou處理、圖片和表格描述合并、公式替換、圖標(biāo)轉(zhuǎn)儲(chǔ)、Layout排序等操作。
多種格式輸出：處理后的文檔信息可以轉(zhuǎn)換為統(tǒng)一的中間態(tài)格式（middle-json），并根據(jù)需求輸出為不同的格式，如Layout、Span、Markdown或Content list等。
PDF提取結(jié)果質(zhì)檢：通過(guò)人工標(biāo)注的PDF自測(cè)評(píng)測(cè)集對(duì)整個(gè)流程進(jìn)行檢測(cè)，確保提取效果的優(yōu)化。使用可視化質(zhì)檢工具進(jìn)行人工質(zhì)檢與標(biāo)注，反饋給模型訓(xùn)練，進(jìn)一步提升模型能力。

MinerU

MinerU的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://opendatalab.com/OpenSourceTools/Extractor/PDF
GitHub倉(cāng)庫(kù)：https://github.com/opendatalab/PDF-Extract-Kit
HuggingFace模型庫(kù)：https://huggingface.co/wanderkid/PDF-Extract-Kit
魔搭社區(qū)模型庫(kù)：https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit

MinerU的應(yīng)用場(chǎng)景

學(xué)術(shù)研究：研究人員能夠從學(xué)術(shù)論文和期刊中提取關(guān)鍵信息，包括文本、公式和圖表，為文獻(xiàn)綜述和數(shù)據(jù)分析提供支持。
法律文檔處理：法律專業(yè)人士可以使用MinerU從合同、法律意見(jiàn)書(shū)及其他法律文件中提取條款和證據(jù)，從而提升工作效率。
技術(shù)文檔管理：工程師和技術(shù)作者可從技術(shù)手冊(cè)和產(chǎn)品文檔中提取技術(shù)規(guī)格和操作步驟，便于知識(shí)管理和技術(shù)傳播。
知識(shí)管理和信息檢索：企業(yè)和組織可以利用MinerU從內(nèi)部文檔庫(kù)中提取信息，構(gòu)建知識(shí)庫(kù)，提升信息檢索效率。
數(shù)據(jù)挖掘和自然語(yǔ)言處理（NLP）：數(shù)據(jù)科學(xué)家和NLP研究人員能夠使用MinerU提取的數(shù)據(jù)來(lái)訓(xùn)練和優(yōu)化機(jī)器學(xué)習(xí)模型。

閱讀原文