微軟Phi-4家族新增兩位成員,5.6B多模態(tài)單任務(wù)超GPT-4o,3.8B小模型媲美千問7B
進(jìn)擊的 SLM。
原標(biāo)題:微軟Phi-4家族新增兩位成員,5.6B多模態(tài)單任務(wù)超GPT-4o,3.8B小模型媲美千問7B
文章來源:機器之心
內(nèi)容字?jǐn)?shù):7888字
微軟發(fā)布Phi-4模型家族:小而美的大模型新標(biāo)桿
近日,微軟正式發(fā)布了Phi-4模型家族,包括Phi-4-multimodal(多模態(tài)模型)和Phi-4-mini(語言模型),在“小而美”的道路上取得了顯著進(jìn)展。與動輒百億、千億參數(shù)的大模型不同,Phi-4家族專注于在較小的參數(shù)量下實現(xiàn)卓越性能,為手機、PC和汽車等設(shè)備上的應(yīng)用提供更輕量、更高效的解決方案。
1. Phi-4-multimodal:多模態(tài)融合的強大能力
Phi-4-multimodal是一個多模態(tài)模型,整合了文本、視覺和語音/音頻輸入模態(tài)。它采用創(chuàng)新的“Mixture of LoRA”技術(shù),利用LoRA適配器和特定模態(tài)路由器,實現(xiàn)多種推理模式的無干擾結(jié)合。即使語音/音頻模態(tài)的LoRA組件只有46億參數(shù),它也在OpenASR排行榜上排名第一。該模型在各種任務(wù)中表現(xiàn)優(yōu)于大型視覺-語言模型和語音-語言模型,展現(xiàn)出強大的語音識別、翻譯、摘要、音頻理解和圖像分析能力。
2. Phi-4-mini:高效能的小型語言模型
Phi-4-mini擁有38億參數(shù),在高質(zhì)量網(wǎng)絡(luò)和合成數(shù)據(jù)上進(jìn)行訓(xùn)練。它顯著優(yōu)于近期類似規(guī)模的開源模型,在數(shù)學(xué)和編碼任務(wù)上甚至與規(guī)模更大的模型不相上下。這得益于精心設(shè)計的合成數(shù)據(jù)配方,以及諸如分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術(shù)等“省內(nèi)存”技巧。Phi-4-mini的詞匯量擴大到20萬,支持更廣泛的多語言應(yīng)用,并支持更長的上下文長度。
3. 模型架構(gòu)與訓(xùn)練數(shù)據(jù)
兩個模型都使用tokenizer o200k base tiktoken,詞匯量為200,064個。Phi-4-mini由32層Transformer組成,Phi-4-multimodal則采用“Mixture of LoRA”技術(shù),通過整合特定模態(tài)的LoRAs來實現(xiàn)多模態(tài)功能,同時完全凍結(jié)基礎(chǔ)語言模型。Phi-4-mini的訓(xùn)練數(shù)據(jù)經(jīng)過嚴(yán)格篩選,加入了針對性的數(shù)學(xué)和編程訓(xùn)練數(shù)據(jù),并通過調(diào)整數(shù)據(jù)混合比例來提升推理能力。Phi-4-multimodal的預(yù)訓(xùn)練階段則使用了豐富多樣的視覺-語言和語音數(shù)據(jù)。
4. 性能評估與應(yīng)用
Phi-4-multimodal在多個基準(zhǔn)測試中表現(xiàn)出色,在語音相關(guān)任務(wù)中優(yōu)于專業(yè)模型,在視覺任務(wù)中也展現(xiàn)出強大的推理和邏輯能力。Phi-4-mini則在推理、數(shù)學(xué)、編程等任務(wù)上超越了更大的模型,并可以通過函數(shù)調(diào)用與外部知識和工具無縫集成,構(gòu)建可擴展的智能體系統(tǒng),例如智能家居助手。
總而言之,微軟Phi-4模型家族的發(fā)布,展現(xiàn)了“小而美”模型在性能和效率上的巨大潛力,為人工智能應(yīng)用帶來了更多可能性。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺