<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        MinerU

        AI工具6個(gè)月前發(fā)布 AI工具集
        1,491 0 0

        MinerU是什么

        MinerU是由上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)開發(fā)的一款開源智能數(shù)據(jù)提取工具,專注于高效解析和提取復(fù)雜的PDF文檔。該工具可以將包含圖像、公式、表格等多種元素的多模態(tài)PDF文檔轉(zhuǎn)換為易于分析的Markdown格式,同時(shí)支持從網(wǎng)頁和電子書中提取內(nèi)容,顯著提升AI語料的準(zhǔn)備效率。MinerU配備高精度的PDF解析工具鏈,能夠自動識別亂碼,保持文檔結(jié)構(gòu),并將公式轉(zhuǎn)換為LaTeX格式,廣泛應(yīng)用于學(xué)術(shù)、財(cái)務(wù)、法律等多個(gè)領(lǐng)域,支持在CPU和GPU上運(yùn)行,兼容Windows、Linux和Mac平臺,性能卓越。

        MinerU

        MinerU的主要功能

        • PDF到Markdown轉(zhuǎn)換:將多種內(nèi)容類型的PDF文檔轉(zhuǎn)換為結(jié)構(gòu)化的Markdown格式,便于后續(xù)的編輯和分析。
        • 多模態(tài)內(nèi)容處理:具備識別和處理PDF中的圖像、公式、表格和文本等多種內(nèi)容的能力。
        • 結(jié)構(gòu)和格式保留:在轉(zhuǎn)換過程中,保留原始文檔的結(jié)構(gòu)和格式,包括標(biāo)題、段落和列表等。
        • 公式識別與轉(zhuǎn)換:專門針對數(shù)學(xué)公式,能夠識別并轉(zhuǎn)換為LaTeX格式,便于學(xué)術(shù)交流和技術(shù)文檔的使用。
        • 去除干擾元素:自動刪除頁眉、頁腳、腳注和頁碼等無關(guān)信息,凈化文檔內(nèi)容。
        • 亂碼識別與處理:自動檢測并糾正PDF文檔中的亂碼,提高信息提取的準(zhǔn)確性。
        • 高質(zhì)量解析工具鏈:集成了先進(jìn)的PDF解析工具,包括布局檢測、公式檢測和光學(xué)字符識別(OCR),確保提取結(jié)果的高準(zhǔn)確度。

        MinerU的技術(shù)原理

        • PDF文檔分類預(yù)處理:在處理PDF文檔之前,MinerU首先對文檔進(jìn)行分類,識別其類型(如文本型、圖層型或掃描版PDF),并進(jìn)行相應(yīng)的預(yù)處理,如檢測亂碼和識別掃描文檔。
        • 模型解析與內(nèi)容提取
          • 布局檢測:采用基于深度學(xué)習(xí)的模型,如LayoutLMv3,進(jìn)行區(qū)域檢測,識別文檔中的圖像、表格、標(biāo)題和文本等不同區(qū)域。
          • 公式檢測:利用自研的YOLOv8模型識別文檔中的數(shù)學(xué)公式,區(qū)分行內(nèi)和行間公式。
          • 公式識別:通過UniMERNet模型解析數(shù)學(xué)公式,并將其轉(zhuǎn)換成LaTeX格式。
          • 光學(xué)字符識別(OCR):使用PaddleOCR等OCR技術(shù)識別文檔中的文本內(nèi)容。
        • 管線處理:將模型解析得到的數(shù)據(jù)輸入處理管線,進(jìn)行后處理,包括:
          • 確定塊級別的順序。
          • 刪除無用元素。
          • 依據(jù)版面對內(nèi)容進(jìn)行排序和拼裝,以確保正文的連貫性。
          • 進(jìn)行坐標(biāo)修復(fù)、高iou處理、圖片和表格描述合并、公式替換、圖標(biāo)轉(zhuǎn)儲、Layout排序等操作。
        • 多種格式輸出:處理后的文檔信息可以轉(zhuǎn)換為統(tǒng)一的中間態(tài)格式(middle-json),并根據(jù)需求輸出為不同的格式,如Layout、Span、Markdown或Content list等。
        • PDF提取結(jié)果質(zhì)檢:通過人工標(biāo)注的PDF自測評測集對整個(gè)流程進(jìn)行檢測,確保提取效果的優(yōu)化。使用可視化質(zhì)檢工具進(jìn)行人工質(zhì)檢與標(biāo)注,反饋給模型訓(xùn)練,進(jìn)一步提升模型能力。

        MinerU

        MinerU的項(xiàng)目地址

        MinerU的應(yīng)用場景

        • 學(xué)術(shù)研究:研究人員能夠從學(xué)術(shù)論文和期刊中提取關(guān)鍵信息,包括文本、公式和圖表,為文獻(xiàn)綜述和數(shù)據(jù)分析提供支持。
        • 法律文檔處理:法律專業(yè)人士可以使用MinerU從合同、法律意見書及其他法律文件中提取條款和證據(jù),從而提升工作效率。
        • 技術(shù)文檔管理:工程師和技術(shù)作者可從技術(shù)手冊和產(chǎn)品文檔中提取技術(shù)規(guī)格和操作步驟,便于知識管理和技術(shù)傳播。
        • 知識管理和信息檢索:企業(yè)和組織可以利用MinerU從內(nèi)部文檔庫中提取信息,構(gòu)建知識庫,提升信息檢索效率。
        • 數(shù)據(jù)挖掘和自然語言處理(NLP):數(shù)據(jù)科學(xué)家和NLP研究人員能夠使用MinerU提取的數(shù)據(jù)來訓(xùn)練和優(yōu)化機(jī)器學(xué)習(xí)模型。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产AV无码专区亚洲精品| 亚洲av无码无线在线观看 | 亚洲一区免费视频| 亚洲AV永久无码精品网站在线观看| 亚洲国产精品无码久久青草 | 国产精品无码素人福利免费| www免费黄色网| 精品亚洲AV无码一区二区三区 | 国产免费久久精品99久久| 亚洲综合无码一区二区三区| 国产在线19禁免费观看国产| 久久国产色AV免费观看| 狠狠入ady亚洲精品| 亚洲经典在线观看| 亚洲中文字幕伊人久久无码| 无码免费午夜福利片在线| 久久一区二区三区免费| 亚洲色偷偷色噜噜狠狠99| 亚洲AV中文无码字幕色三| 五月天婷亚洲天综合网精品偷| 久久aa毛片免费播放嗯啊| 偷自拍亚洲视频在线观看99| 亚洲国产精品久久网午夜| 一本色道久久综合亚洲精品| 黄网址在线永久免费观看| 99精品免费观看| 韩国免费A级毛片久久| 亚洲精品中文字幕无码A片老| 亚洲国产成人久久精品动漫| 亚洲精品456播放| 日本免费人成视频播放| 成人免费视频网站www| 日韩免费观看一区| 国产伦精品一区二区免费| 亚洲AV成人无码网天堂| 亚洲三级视频在线观看| 亚洲视频在线观看| 亚洲大尺度无码专区尤物| 国产亚洲精aa成人网站| 一区国严二区亚洲三区| 国产片免费福利片永久|