微軟開源Markdown工具爆了:支持Office文檔,可接多模態(tài)LLM直出報告
還有在線網(wǎng)頁版,隨點(diǎn)隨用
原標(biāo)題:微軟開源Markdown工具爆了:支持Office文檔,可接多模態(tài)LLM直出報告
文章來源:量子位
內(nèi)容字?jǐn)?shù):12154字
微軟開源文件格式轉(zhuǎn)換工具M(jìn)arkItDown:助力大模型應(yīng)用
微軟官方開源了一款強(qiáng)大的文件格式轉(zhuǎn)換工具M(jìn)arkItDown,它能夠?qū)⒍喾N文件格式(包括Word、PowerPoint、Excel、PDF、圖像、音頻等)轉(zhuǎn)換為對大模型更友好的Markdown格式,目前GitHub收藏數(shù)已超過3萬。
1. MarkItDown 的主要功能和優(yōu)勢
MarkItDown 支持多種文件格式轉(zhuǎn)換,包括PDF、PowerPoint、Word、Excel、圖像(含OCR和EXIF元數(shù)據(jù))、音頻(含EXIF元數(shù)據(jù)和轉(zhuǎn)錄)、HTML以及其他基于文本格式(CSV、JSON、XML)和壓縮包。它提供命令行、Python API和Docker三種使用方式,甚至還有熱心網(wǎng)友開發(fā)的在線網(wǎng)頁應(yīng)用。此外,MarkItDown的一大亮點(diǎn)是能夠集成多模態(tài)LLM,例如GPT-4o,可以直接對圖片、音頻文件進(jìn)行更高級的處理,例如快速生成商業(yè)報告,極大地方便了開發(fā)者上傳訓(xùn)練數(shù)據(jù)和微調(diào)LLM應(yīng)用。
2. MarkItDown 與 Docling 的性能對比
文章通過一個案例研究,將MarkItDown與IBM的Markdown轉(zhuǎn)換庫Docling進(jìn)行了性能對比。兩者都從一份美林證券的報告中提取經(jīng)濟(jì)預(yù)測數(shù)據(jù)。雖然Docling生成的Markdown更易讀,但使用LLM從MarkItDown和Docling生成的文本中提取經(jīng)濟(jì)預(yù)測數(shù)據(jù)時,兩者結(jié)果完全相同,準(zhǔn)確地匹配了文檔中的真實(shí)值。然而,在提取資產(chǎn)類別權(quán)重方面,Docling的準(zhǔn)確率(93.33%)遠(yuǎn)高于MarkItDown(53.33%)。這表明,盡管MarkItDown的輸出可讀性較差,但在某些情況下,它依然能夠提供足夠的信息供LLM準(zhǔn)確提取數(shù)據(jù)。
3. Docling 的表格提取能力
Docling 擁有強(qiáng)大的表格提取功能,能夠從文檔中系統(tǒng)地提取所有表格,并將其轉(zhuǎn)換為pandas DataFrame,方便后續(xù)數(shù)據(jù)分析。文章展示了Docling成功從案例文檔中提取7個表格。
4. MarkItDown 的多模態(tài)LLM集成能力
MarkItDown 可以集成多模態(tài)LLM,從圖像中提取信息并進(jìn)行分析和描述。文章展示了MarkItDown對報告圖像的描述,雖然總體上比較準(zhǔn)確,但也存在一些細(xì)節(jié)上的不準(zhǔn)確之處,這可能與底層大型語言模型處理圖像的能力有關(guān)。
5. 其他值得關(guān)注的格式轉(zhuǎn)換庫
文章最后還提到了其他一些常用的文件格式轉(zhuǎn)換庫,例如MinerU和Pandoc,它們也具有較高的收藏數(shù)和廣泛的應(yīng)用。
總而言之,MarkItDown 是一款功能強(qiáng)大的文件格式轉(zhuǎn)換工具,其多模態(tài)LLM集成能力是其一大優(yōu)勢。雖然在某些特定任務(wù)上,其性能可能不如Docling,但它仍然為開發(fā)者提供了便捷高效的工具,用于處理各種文件格式并將其轉(zhuǎn)換為適合大模型處理的數(shù)據(jù)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
