pdf-extract-api官網(wǎng)
pdf-extract-api是一個(gè)使用現(xiàn)代OCR技術(shù)和Ollama支持的模型將任何文檔或圖片轉(zhuǎn)換為結(jié)構(gòu)化的JSON或Markdown文本的API。它使用FastAPI構(gòu)建,并使用Celery進(jìn)行異步任務(wù)處理,Redis用于緩存OCR結(jié)果。該API無(wú)需云或外部依賴,所有處理都在本地開(kāi)發(fā)或服務(wù)器環(huán)境中完成,確保數(shù)據(jù)安全。它支持PDF到Markdown的高精度轉(zhuǎn)換,包括表格數(shù)據(jù)、數(shù)字或數(shù)學(xué)公式,并且可以使用Ollama支持的模型進(jìn)行PDF到JSON的轉(zhuǎn)換。此外,該API還支持LLM改進(jìn)OCR結(jié)果,去除PDF中的個(gè)人身份信息(PII),以及分布式隊(duì)列處理和緩存。
pdf-extract-api是什么
pdf-extract-api是一個(gè)強(qiáng)大的API,能夠?qū)⒏鞣N文檔(PDF、Word、PPTX等)和圖片轉(zhuǎn)換成結(jié)構(gòu)化的JSON或Markdown文本。它采用先進(jìn)的OCR技術(shù)和Ollama支持的模型,所有處理都在本地完成,保證數(shù)據(jù)安全和隱私。該API尤其擅長(zhǎng)高精度地將PDF轉(zhuǎn)換為Markdown,甚至能處理表格、數(shù)字和數(shù)學(xué)公式。此外,它還支持使用LLM改進(jìn)OCR結(jié)果、去除個(gè)人身份信息(PII)等功能。
pdf-extract-api的主要功能
pdf-extract-api的核心功能是高精度地將文檔和圖片轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。其主要功能包括:PDF到Markdown和JSON的轉(zhuǎn)換、支持多種文檔格式、使用PyTorch基于Marker的OCR和Ollama模型進(jìn)行本地處理、LLM改進(jìn)OCR結(jié)果、去除PII、分布式隊(duì)列處理和緩存以及命令行工具支持。
如何使用pdf-extract-api
使用pdf-extract-api主要分以下步驟:1. 克隆倉(cāng)庫(kù)到本地;2. 設(shè)置環(huán)境變量并創(chuàng)建.env文件;3. 使用Docker Compose構(gòu)建并運(yùn)行Docker容器;4. 使用CLI工具上傳文件進(jìn)行OCR轉(zhuǎn)換;5. 獲取OCR結(jié)果;6. 清除OCR緩存(可選)。詳細(xì)步驟請(qǐng)參考官方GitHub倉(cāng)庫(kù)。
pdf-extract-api的產(chǎn)品價(jià)格
本文檔未提供pdf-extract-api的價(jià)格信息,建議訪問(wèn)其官方GitHub倉(cāng)庫(kù)或聯(lián)系開(kāi)發(fā)者獲取價(jià)格信息。
pdf-extract-api的常見(jiàn)問(wèn)題
該API支持哪些類型的文件? 該API支持PDF、Word、PPTX等多種文檔格式,以及圖片文件。
如何處理OCR識(shí)別錯(cuò)誤? 該API支持使用LLM改進(jìn)OCR結(jié)果,以提高準(zhǔn)確性。此外,用戶也可以手動(dòng)校正識(shí)別錯(cuò)誤。
如何保證我的數(shù)據(jù)安全和隱私? pdf-extract-api的所有處理都在本地完成,無(wú)需云或外部依賴,確保數(shù)據(jù)安全和隱私。
pdf-extract-api官網(wǎng)入口網(wǎng)址
https://github.com/CatchTheTornado/pdf-extract-api
OpenI小編發(fā)現(xiàn)pdf-extract-api網(wǎng)站非常受用戶歡迎,請(qǐng)?jiān)L問(wèn)pdf-extract-api網(wǎng)址入口試用。
數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)評(píng)估
本站OpenI提供的pdf-extract-api都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2025年 1月 16日 下午7:47收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。