MMSearch

MMSearch是一個專為評估大型多模態模型（LMMs）在AI搜索引擎中的表現而設計的基準測試工具。它包含一個MMSearch-Engine框架和一個由300個問題組成的測試集，涵蓋14個不同的子領域。通過問題重構、網頁排序和答案總結三大步驟，MMSearch極大地提升了LMMs的搜索能力。

MMSearch

MMSearch是什么

MMSearch是一個基準測試工具，專門用于評估大型多模態模型（LMMs）在作為AI搜索引擎時的能力。它由MMSearch-Engine框架和一個包含300個問題的測試集組成，問題涵蓋新聞和知識兩大類別，確保測試內容與LMMs的訓練數據不重疊，從而提供公正的評估。實驗結果顯示，GPT-4o模型在MMSearch基準測試中表現突出，超越了商業產品Perplexity Pro。另外，研究發現，在測試時增加計算量的效果優于單純增大模型規模。

MMSearch的主要功能

多模態搜索能力評估：該系統旨在評估大型多模態模型（LMMs）在處理復雜包含圖像和文本的查詢時的表現。
問題重構：將用戶的原始查詢轉變為適合搜索引擎處理的格式。
網頁排序：從搜索引擎返回的結果中篩選出最相關的網頁。
答案總結：從選出的網頁中提取并總結出答案。

MMSearch的技術原理

MMSearch-Engine框架：
- 問題重構（Requery）：基于LMMs對用戶查詢意圖的理解，將其轉化為搜索引擎可處理的格式。如果查詢中包含圖像，還會利用Google Lens等工具識別圖像中的關鍵信息。
- 網頁排序（Rerank）：利用LMMs對搜索引擎返回的結果進行重新排序，以確定哪些網頁最有可能包含正確答案。
- 答案總結（Summarization）：從選中的網頁中提取相關信息，并進行總結。
數據集設計：MMSearch包含300個手動收集的查詢實例，涵蓋新聞和知識領域，確保與LMMs的訓練數據不重疊。
評估策略：通過端到端任務和任務（問題重構、網頁排序、答案總結）來評估LMMs的性能。