最強的全模態理解端模型開源，這個輕巧的小模型不僅多基準登頂，推理速度最高還能領先300%

這可能是目前最強的開源全模態理解端模型了。今天，無問芯穹宣布正式開源全球首個端側全模態理解模型 Megrez-3B-Omni，同步開源的還有它的純語言版本模型 Megrez-3B-Instruct。Megrez-3B-Omni 是一個為端而生的全模態理解模型，同時具備圖片、音頻、文本三種模態數據的處理能力，并在三個模態的多種測評基準中取得了最優性能，還能支持多輪對話中的不同模態間切換。Megrez-3B-Omni 選擇了最適合手機、平板等端側設備的30 億參數黃金尺寸，結構規整，推理速度最大領先同精度模型 300%。Github：https://github.com/infinigence/Infini-MegrezHuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni全模態高性能：圖片、文本、音頻作者團隊表示，Megrez-3B-Omni 沒有犧牲任何模態的精度，在圖片、文本、音頻三個模態中均取得了同尺寸下最優性能。無論是和同樣三模態的 VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ，還是雙模態的 MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B，又或是單一模態的 Qwen、Baichuan 等模型相比，Megrez-3B-Omni 在主流基準測試集上的表現都毫不遜色。圖片理解：3B 體量對標 34B 模型表現在圖像理解方面，Megrez-3B-Omni 作為一個體積僅為 3B 的模型，其綜合性能表現可以全面超過 34B 的龐然大物，超越 LLaVA-NeXT-Yi-34B 等模型，是目前 OpenCompass、MME、MMMU、OCRBench 等多個主流測試集上精度最高的圖像理解模型之一。與此同時，Megrez-3B-Omni 在場景理解、OCR 等任務上也具有良好表現，能夠準確洞察和分析圖像中的場景內容，并高效地從中提取文本信息，且無論是模糊的印刷體還是復雜的手寫字，都能夠輕松識別。Megrez-3B-Omni 屏幕識別Megrez-3B-Omni 手寫體識別文本理解：超越上一代 14B 最佳模型在文本理解方面，作為全模態理解模型，Megrez-3B-Omni 沒有犧牲模型的文本處理能力，將上一代 14B 大模型的優秀能力壓縮至 3B 規模，顯著降低了計算成本、提升了計算效率。在 C-EVAL、MMLU/MMLU Pro、AlignBench 等多個權威測試集上更是取得端上模型最優精度，在文本理解方面取得全球領先地位。Megrez-3B-Omni 文本理解Megrez-3B-Omni 代碼理解音頻理解：輕松以音問圖、以音解文、以音聽音在語音理解方面，Megrez-3B-Omni 的效果比肩行業主流方案。Megrez-3B-Omni 不僅支持中文和英文的語音輸入，還能夠處理復雜的多輪對話場景，更能支持對輸入圖片或文字的語音提問，實現不同模態間的切換。用戶就任意模態內容，發出語音指令，Megrez-3B-Omni 就能根據語音指令直接響應文本，讓用戶可以通過更少動作與模型展開更直觀、自然的交互。Megrez-3B-Omni 語音理解Megrez-3B-Omni 多種模態切換令人驚嘆的推理效率模型的規模并不是決定其速度的唯一因素，因此模型小并不一定就意味著速度快。憑借對硬件特性的深入理解與利用，Megrez-3B-Omni 通過軟硬件協同優化策略，確保了各參數與主流硬件高度適配，以實現硬件性能的利用最大化。與上一代及其他端側大語言模型相比，單模態版本的 Megrez-3B-Instruct 在推理速度上取得了顯著提升，最大推理速度可以領先同精度模型 300%。多場景靈活應用Megrez-3B-Instruct 這次還特別提供了 WebSearch 功能，這一功能使得模型能夠智能地判斷何時需要調用外部工具進行網頁搜索，輔助回答用戶的問題。用戶得以構建屬于自己 AI 搜素，通過網絡獲取最新信息，克服小模型的幻覺問題和知識儲備不足的局限。有時，模型通過搜索網頁可以更全面地完成回答，而其他時候，模型自身已具備足夠的知識來解決問題，過多的搜索調用可能會降低推理速度和效果。Megrez-3B-Instruct 通過在搜索和對話之間智能切換，避免了過度依賴搜索或完全不調用搜索的問題。除了可以自動決策工具調用時機之外，Megrez-3B-Instruct 還具備上下文理解性能優異、可提供帶參考信息的結構化輸出等優勢。目前，這些能力都已集成于 Megrez-3B-Instruct 模型中，用戶可以通過 System Prompt 切換，同時享受到高精度模型推理能力與智能 WebSearch 調用收益。端上智能需要一體化解決方案相較于云端大模型，端側模型需要在資源有限的設備上快速部署、高效運行，對降低模型計算和存儲需求提出更高要求。無問芯穹技術團隊源起于清華大學電子工程系 NICS-EFC 實驗室，在模型壓縮、推理加速及硬件能耗優化等領域擁有深入的學術研究和深厚的工程實踐經驗，是模型輕量化、軟硬件協同優化領域的頂尖團隊。無問芯穹表示，Megrez-3B-Omni 是一個能力預覽，接下來還將持續迭代 Megrez 系列，提升自動化水平至“edge device use”效果，讓用戶只需要給出簡單的語音指令，就可完成端設備的設置或應用操作，并將它作為“端模型 + 端軟件 + 端 IP”端上智能一體化解決方案的重要構成推向市場。在這個方案中，除端側全模態理解模型外，還有端上推理軟件和 IP 設計方案，不僅支持 CPU、GPU 和 NPU 的同時推理，更能通過跨越軟硬件層次的系統優化，額外帶來最高可達 70% 的性能提升，最大化端側硬件性能的利用。通過“端模型 + 端軟件 + 端 IP”一體化設計，無問芯穹將持續致力于為端側設備提供更完整、對硬件利用更高效的智能方案，促進大模型在端側設備上實現更高推理速度與更低能耗，推動端側智能更快迎接 AGI 到來。

閱讀原文