PPTAgent

PPTAgent – 中科院推出的自動生成高質量演示文稿框架

PPTAgent是什么

PPTAgent是由中國科學院軟件研究所中文信息處理實驗室推出的一款創新框架，它采用模仿人類工作流程的兩階段編輯方法，能夠自動將文檔轉化為高質量的演示文稿。該系統分析參考演示文稿，從中提取結構和內容模式，并通過代碼動作草擬大綱、生成幻燈片，確保內容的連貫性和一致性。PPTAgent依托于大型語言模型（LLM）的強大功能，將演示文稿生成過程細分為迭代編輯的工作流程，從而提升了生成文稿的適應性和連貫性，同時更有效地解決復雜格式問題。此外，PPTAgent還引入了PPT Eval評估框架，能夠從內容、設計和連貫性三個維度全面評估生成的演示文稿質量，為未來的研究提供重要的見解和資源。

PPTAgent

PPTAgent的主要功能

分析參考演示文稿：深入理解其結構與內容模式。
草擬大綱：根據分析結果，制定詳細的演示文稿大綱。
生成幻燈片：通過代碼動作將大綱轉化為具體的幻燈片內容，確保內容一致性和對齊。
編輯與修正：提供反饋機制，對生成的幻燈片進行編輯和自我修正，以提升文稿質量。
綜合評估：基于PPT Eval框架，從內容、設計和連貫性三個方面評估生成的演示文稿質量。

PPTAgent的技術原理

第一階段：演示文稿分析
- 幻燈片聚類：
  - 將幻燈片分為支持演示文稿結構的幻燈片（如開場幻燈片）和傳達特定內容的幻燈片（如項目符號幻燈片）。
  - 利用不同的聚類算法，基于文本或視覺特征對幻燈片進行聚類。對于結構幻燈片，利用LLM推測每個幻燈片的功能角色；對于內容幻燈片，采用層次聚類方法基于圖像相似性進行聚類。
- 模式提取：
  - 進一步分析幻燈片的內容模式，以確保編輯的目的明確。
  - 利用LLM的情境感知能力，提取多樣化的內容模式。每個元素通過類別、模態和內容進行表示，基于LLM的指令遵循和結構化輸出能力提取每個幻燈片的模式。
第二階段：演示文稿生成
- 大綱生成：
  - 指導LLM創建包含多個條目的結構化大綱。每個條目指明參考幻燈片、相關文檔部分索引及新幻燈片的標題和描述。
  - 結合文檔內容和參考演示文稿的語義信息，利用LLM的規劃和總結能力，生成連貫且吸引人的大綱，指導后續生成過程。
- 幻燈片生成：
  - 在大綱的指導下，通過迭代編輯參考幻燈片生成新幻燈片。
  - 實施五個專門的API，支持LLM編輯、刪除和復制文本元素，并編輯和刪除視覺元素。
  - 將幻燈片從原始XML格式轉換為HTML表示，使LLM更易于理解和操作。
  - LLM接收兩種輸入：基于部分索引的源文檔文本和可用圖像的標題。新幻燈片內容依據內容模式生成。
  - LLM利用生成的內容、參考幻燈片的HTML表示和API文檔，執行可操作的編輯動作。在REPL環境中執行，系統在執行過程中檢測錯誤并提供實時反饋，LLM基于中間結果迭代優化編輯動作，從而增強生成過程的穩健性。