不糊弄的“SHE”
原標題:iPad 里跑“GPT-4o”:面壁新模型,低調開源
文章來源:AI使用技巧
內容字數:3384字
MiniCPM-o 2.6:端側AI的性突破
人工智能技術日新月異,大型語言模型(LLM)的應用越來越廣泛。然而,高昂的算力成本和數據隱私問題一直是制約AI發展的重要因素。近日,面壁智能低調發布的MiniCPM-o 2.6模型,為我們帶來了新的希望,它以其強大的性能和端側部署能力,掀起了端側AI的。
MiniCPM-o 2.6:小身材,大能量
MiniCPM-o 2.6 是一款僅有8B參數的開源多模態模型,令人驚嘆的是,它的性能可以與GPT-4o比肩。更重要的是,它能夠在iPad等移動設備上流暢運行,這在業界尚屬首次。這意味著,強大的AI能力不再局限于云端服務器,而是可以真正地“走入”我們的日常生活中。
MiniCPM-o 2.6 的強大之處體現在其全模態能力上。它不僅能夠“看” (See)——擁有視覺記憶能力,能夠理解視頻中的內容;還能“聽” (Hear)——識別各種聲音,甚至能區分細微的敲門聲(這方面優于OpenAI的GPT-4o);更能“說” (Express)——表達情緒豐富,能夠根據對話內容調整表達方式,帶來更自然、更人性化的交互體驗。作者幽默地將See、Hear、Express組合成“SHE”,與OpenAI的“HER”形成有趣的對比。
AI界的“糊弄學”:低成本背后的代價
在MiniCPM-o 2.6展現強大實力的同時,我們也需要反思AI行業中存在的“糊弄學”現象。由于算力成本居高不下,一些AI產品為了降低成本,采用了各種“偷工減料”的方式,例如:
“假裝思考”的AI
有些AI產品會模擬思考過程,但實際上并未進行真正的計算和推理,而是通過預設的規則或簡單的模式匹配來生成答案。這就像一個只會背誦答案的學生,無法真正理解問題的含義。
“看圖說話”的偽裝
在視頻通話領域,“看圖說話”是一種常見的“糊弄”方式。一些AI產品只截取視頻的靜態畫面進行分析,而忽略了視頻的動態信息。這會導致AI無法理解視頻中的動作和變化,只能對靜態畫面進行簡單的描述,造成理解偏差。
“語音套娃”的低效
許多語音助手采用“語音轉文字,再轉語音”的方案,將語音信息進行兩次轉換,這不僅降低了效率,還會丟失語音中的語氣、語調等重要信息,導致AI理解出現偏差。
端側AI:未來之路
與那些“糊弄”的AI產品不同,MiniCPM-o 2.6代表著端側AI的未來方向。它為用戶帶來了諸多好處:
- 更低成本:無需依賴云端服務器,節省了大量的算力成本。
- 穩定使用:不受服務器負載的影響,保證了AI服務的穩定性。
- 隱私保護:數據處理在本地完成,無需上傳數據,保護了用戶的隱私安全。
對于廠商而言,端側AI也具有巨大的吸引力:
- 差異化競爭:搭載強大的端側AI,能夠提升產品的競爭力。
- 生態構建:通過AI連接各種內置功能,構建更完善的生態系統。
雖然端側AI并不能完全取代云端AI,但MiniCPM-o 2.6的出現,標志著端側AI技術已經日趨成熟,它將與云端AI長期共存,共同推動AI技術的發展,并最終融入我們的日常生活。
MiniCPM-o 2.6開源項目地址:
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6
聯系作者
文章來源:AI使用技巧
作者微信:
作者簡介:解鎖人工智能秘籍,帶你一鍵提升生活與工作智能化!鮮活案例、實用技巧,觸手可及的AI知識,讓前沿科技成為你的日常利器。關注我們,把握AI動態,簡化復雜,激發創造力,開啟你的智能化生活新篇章!