進擊的 SLM。
原標題:微軟Phi-4家族新增兩位成員,5.6B多模態單任務超GPT-4o,3.8B小模型媲美千問7B
文章來源:機器之心
內容字數:7888字
微軟發布Phi-4模型家族:小而美的大模型新標桿
近日,微軟正式發布了Phi-4模型家族,包括Phi-4-multimodal(多模態模型)和Phi-4-mini(語言模型),在“小而美”的道路上取得了顯著進展。與動輒百億、千億參數的大模型不同,Phi-4家族專注于在較小的參數量下實現卓越性能,為手機、PC和汽車等設備上的應用提供更輕量、更高效的解決方案。
1. Phi-4-multimodal:多模態融合的強大能力
Phi-4-multimodal是一個多模態模型,整合了文本、視覺和語音/音頻輸入模態。它采用創新的“Mixture of LoRA”技術,利用LoRA適配器和特定模態路由器,實現多種推理模式的無干擾結合。即使語音/音頻模態的LoRA組件只有46億參數,它也在OpenASR排行榜上排名第一。該模型在各種任務中表現優于大型視覺-語言模型和語音-語言模型,展現出強大的語音識別、翻譯、摘要、音頻理解和圖像分析能力。
2. Phi-4-mini:高效能的小型語言模型
Phi-4-mini擁有38億參數,在高質量網絡和合成數據上進行訓練。它顯著優于近期類似規模的開源模型,在數學和編碼任務上甚至與規模更大的模型不相上下。這得益于精心設計的合成數據配方,以及諸如分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術等“省內存”技巧。Phi-4-mini的詞匯量擴大到20萬,支持更廣泛的多語言應用,并支持更長的上下文長度。
3. 模型架構與訓練數據
兩個模型都使用tokenizer o200k base tiktoken,詞匯量為200,064個。Phi-4-mini由32層Transformer組成,Phi-4-multimodal則采用“Mixture of LoRA”技術,通過整合特定模態的LoRAs來實現多模態功能,同時完全凍結基礎語言模型。Phi-4-mini的訓練數據經過嚴格篩選,加入了針對性的數學和編程訓練數據,并通過調整數據混合比例來提升推理能力。Phi-4-multimodal的預訓練階段則使用了豐富多樣的視覺-語言和語音數據。
4. 性能評估與應用
Phi-4-multimodal在多個基準測試中表現出色,在語音相關任務中優于專業模型,在視覺任務中也展現出強大的推理和邏輯能力。Phi-4-mini則在推理、數學、編程等任務上超越了更大的模型,并可以通過函數調用與外部知識和工具無縫集成,構建可擴展的智能體系統,例如智能家居助手。
總而言之,微軟Phi-4模型家族的發布,展現了“小而美”模型在性能和效率上的巨大潛力,為人工智能應用帶來了更多可能性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺