中午看到無問芯穹開源了一個端側全模態大模型-Megrez-3B-Omni,馬上來測測看,效果如何。
原標題:實測!無問芯穹最新端側全模態大模型Megrez-3B-Omni
文章來源:智猩猩GenAI
內容字數:6687字
智猩猩AI新青年講座及Megrez-3B-Omni模型概述
12月23日10點,德州農工大學計算機系博士余政銘將進行關于《任意拓撲的高質量3D物體生成》的講座,歡迎大家掃名參與。同時,無問芯穹推出了一個全模態大模型——Megrez-3B-Omni,支持文本、圖像和語音的理解與生成。
1. Megrez-3B-Omni模型介紹
Megrez-3B-Omni是基于Megrez-3B-Instruct擴展的端側全模態理解模型,具備處理圖片、文本和音頻三種模態的能力。相較于同類參數模型,它在多個模態上均取得了良好的效果。
2. 模型實測
模型測試分為三個方面:文本、圖像和語音。
2.1 文本測試
模型在解答數學和邏輯問題時存在一定局限性,特別是在復雜數學題上更是顯得力不從心。不過,它在倫理和生物等領域的回答安全性較高,整體表現尚可。
2.2 圖像測試
在單圖信息抽取及理解方面,Megrez-3B-Omni能準確回答簡單問題,但在復雜表格的識別上效果一般。目前版本不支持多圖處理,預計未來版本會有所改善。
2.3 語音測試
模型在語音轉文本和語音問答方面表現良好,能夠準確理解語音內容。
3. Web-Search項目介紹
該項目基于Megrez-3B-Instruct模型,旨在實現高效的網頁搜索功能,增加了摘要過程以去除無效信息并提高模型回復效果。整體流程簡單易用,可在本地快速部署。
4. 總結
Megrez-3B-Omni整體體驗不錯,但在OCR、數學能力等方面依然需要改進。盡管面臨資源緊張和模型大小的矛盾,端側全模態模型的推出為應用落地提供了新的可能性。期待未來版本的進一步優化與更新。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...