AIGC動態歡迎閱讀
原標題:Mistral多模態大模型來了!120億參數,原生支持任意大小/數量圖像,公司估值已達420億
關鍵字:模型,視覺,編碼器,微軟,大小
文章來源:量子位
內容字數:0字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitAIMistral的多模態大模型來了!
Pixtral 12B正式發布,同時具備語言和視覺處理能力。
它建立在文本模型Nemo 12B基礎上,包含一個專門的視覺編碼器。
大概24GB,原生支持任意數量和尺寸的圖像,大約有40層神經網絡、14,336 個隱藏維度大小和32個注意力頭,以及一個專用的視覺編碼器,支持高分辨率圖像(1024×1024)處理。
發布形式還是簡單直接一個種子鏈接。
現在可以通過鏈接、GitHub或Hugging Face下載模型。
Mistral的開發主管表示,后續也會在Chatbot上接入模型,并提供API服務。
超越Qwen、LLaVA等雖然目前模型的訓練數據、細節都未公開,但是通過模型代碼網友們發現了更多細節。
1、先進架構:40層網絡、14336隱藏維度大小、32個注意力頭。
2、視覺能力:專用視覺編碼器,支持1024×1024圖像大小和24個隱藏層,用于高級圖像處理。
3、更大詞匯量:131072tokens,支持更細致語言理解和 生成。
4、使用GeLU(用于視覺適配器)和2D RoPE(用于視覺編碼器)。
原文鏈接:Mistral多模態大模型來了!120億參數,原生支持任意大小/數量圖像,公司估值已達420億
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...