還有在線網頁版,隨點隨用
原標題:微軟開源Markdown工具爆了:支持Office文檔,可接多模態LLM直出報告
文章來源:量子位
內容字數:12154字
微軟開源文件格式轉換工具MarkItDown:助力大模型應用
微軟官方開源了一款強大的文件格式轉換工具MarkItDown,它能夠將多種文件格式(包括Word、PowerPoint、Excel、PDF、圖像、音頻等)轉換為對大模型更友好的Markdown格式,目前GitHub收藏數已超過3萬。
1. MarkItDown 的主要功能和優勢
MarkItDown 支持多種文件格式轉換,包括PDF、PowerPoint、Word、Excel、圖像(含OCR和EXIF元數據)、音頻(含EXIF元數據和轉錄)、HTML以及其他基于文本格式(CSV、JSON、XML)和壓縮包。它提供命令行、Python API和Docker三種使用方式,甚至還有熱心網友開發的在線網頁應用。此外,MarkItDown的一大亮點是能夠集成多模態LLM,例如GPT-4o,可以直接對圖片、音頻文件進行更高級的處理,例如快速生成商業報告,極大地方便了開發者上傳訓練數據和微調LLM應用。
2. MarkItDown 與 Docling 的性能對比
文章通過一個案例研究,將MarkItDown與IBM的Markdown轉換庫Docling進行了性能對比。兩者都從一份美林證券的報告中提取經濟預測數據。雖然Docling生成的Markdown更易讀,但使用LLM從MarkItDown和Docling生成的文本中提取經濟預測數據時,兩者結果完全相同,準確地匹配了文檔中的真實值。然而,在提取資產類別權重方面,Docling的準確率(93.33%)遠高于MarkItDown(53.33%)。這表明,盡管MarkItDown的輸出可讀性較差,但在某些情況下,它依然能夠提供足夠的信息供LLM準確提取數據。
3. Docling 的表格提取能力
Docling 擁有強大的表格提取功能,能夠從文檔中系統地提取所有表格,并將其轉換為pandas DataFrame,方便后續數據分析。文章展示了Docling成功從案例文檔中提取7個表格。
4. MarkItDown 的多模態LLM集成能力
MarkItDown 可以集成多模態LLM,從圖像中提取信息并進行分析和描述。文章展示了MarkItDown對報告圖像的描述,雖然總體上比較準確,但也存在一些細節上的不準確之處,這可能與底層大型語言模型處理圖像的能力有關。
5. 其他值得關注的格式轉換庫
文章最后還提到了其他一些常用的文件格式轉換庫,例如MinerU和Pandoc,它們也具有較高的收藏數和廣泛的應用。
總而言之,MarkItDown 是一款功能強大的文件格式轉換工具,其多模態LLM集成能力是其一大優勢。雖然在某些特定任務上,其性能可能不如Docling,但它仍然為開發者提供了便捷高效的工具,用于處理各種文件格式并將其轉換為適合大模型處理的數據。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破