PP-DocBee

PP-DocBee – 百度飛槳推出的文檔圖像理解多模態大模型

PP-DocBee是由百度飛槳（PaddlePaddle）團隊開發的一款專注于文檔圖像理解的多模態大模型。該模型基于ViT、MLP和LLM的架構，具備卓越的中文文檔解析能力，能夠高效處理文字、表格和圖表等多種文檔內容。PP-DocBee在學術界的權威評測中達到了同參數量模型的SOTA水平，并在內部業務的中文應用場景中表現出色。其推理性能經過優化，確保了快速的響應速度與高質量的輸出。PP-DocBee適用于文檔問答、復雜文檔解析等多種場景，并支持多種部署方式，為文檔處理提供了高效和智能的解決方案。

PP-DocBee是什么

PP-DocBee是百度飛槳（PaddlePaddle）團隊推出的一款專注于文檔圖像理解的多模態大模型。該模型采用ViT、MLP和LLM的架構，展現了強大的中文文檔解析能力，能夠高效處理文字、表格、圖表等多種類型的文檔內容。PP-DocBee在學術界的權威評測中達到了同參數量模型的最優水平，并在內部業務的中文場景表現尤為優異。經過優化的推理性能使得響應速度更快，能夠保持高質量的輸出。PP-DocBee適用于文檔問答和復雜文檔解析等場景，支持多種部署方式，提供高效、智能的文檔處理解決方案。

PP-DocBee

PP-DocBee的主要功能

文檔內容理解：PP-DocBee能夠精準識別和理解文檔圖像中的文字、表格、圖表等元素，支持多模態輸入，包括文本和圖像。
文檔問答：用戶可以根據文檔內容提出問題，PP-DocBee能夠結合文檔中的信息生成準確的回答。
結構化信息提取：將文檔中的信息（如表格、圖表）轉化為結構化數據，便于后續的分析和處理。

PP-DocBee的技術原理

架構設計：基于ViT（視覺Transformer）、MLP（多層感知機）和LLM（大語言模型）的架構，結合視覺和語言模型的優勢，實現端到端的文檔理解。
數據合成與預處理：針對中文文檔理解的不足，設計了文檔類數據的智能生產方案，包括OCR小模型與LLM大模型的結合、基于渲染引擎生成圖像數據等。訓練過程中設置更大的resize閾值，推理時對圖像進行等比例放大，以獲取更全面的視覺特征。
訓練優化：通過混合多種文檔理解數據（如通用VQA、OCR、圖表、數學推理等），設置數據配比機制，以平衡不同數據集的數量差異。基于OCR后處理的輔助，將OCR識別的文字結果作為先驗信息，提升模型在文字清晰圖片上的理解能力。