一個(gè)用于智能設(shè)備等的多模態(tài)原生代理框架。
SmolVLM-500M 是一個(gè)輕量級多模態(tài)模型,能夠處理圖像和文本輸入并生成文本輸出。
Phi-4-multimodal-instruct 是微軟開發(fā)的輕量級多模態(tài)基礎(chǔ)模型,支持文本、圖像和音頻輸入。
小型高效的視覺語言模型,讓資源有限的研究者和開發(fā)者也能輕松使用先進(jìn)的視覺語言功能。
PaliGemma 2是一個(gè)強(qiáng)大的視覺-語言模型,支持多種視覺語言任務(wù)。
PaliGemma 2是一款強(qiáng)大的視覺-語言模型,支持多種語言的圖像和文本處理任務(wù)。
多模態(tài)12B參數(shù)模型,結(jié)合視覺編碼器處理圖像和文本。
先進(jìn)的多模態(tài)理解模型,融合視覺與語言能力。
先進(jìn)的大型混合專家視覺語言模型
多模態(tài)大型語言模型,提升視覺和語言的綜合理解能力
多模態(tài)大型語言模型,提升視覺與語言的交互能力。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙