標簽:多模態交互
Qwen2.5-VL-32B
Qwen2.5-VL-32B是阿里巴巴開源的多模態模型,參數規模為32B。模型在Qwen2.5-VL系列的基礎上,基于強化學習優化,具備更符合人類偏好的回答風格、顯著提升的數...
騰訊混元Turbo S
騰訊混元Turbo S是騰訊推出的新一代快思考模型。模型采用創新的Hybrid-Mamba-Transformer融合架構,有效降低了傳統Transformer的計算復雜度,減少了KV-Cache...
微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」!
原標題:微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」! 文章來源:新智元 內容字數:6294字微軟大型行動模型LAM:AI從“聊天”到“行動”的跨...
LLaVA-o1:開源視覺語言模型助力智能理解與生成內容
LLaVA-o1是北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院以及理海大學(Lehigh University)組成的研究團隊推出的開源視覺語言模型,基于Llama-3.2-Vision...
PixVerse V2.5
PixVerse V2.5是愛詩科技最新推出的AI視頻生成工具,通過模型優化提升了視頻生成的速度和畫質,支持4K分辨率。新版本增加了Performance模式、運動筆刷、運鏡...
Gemini Live
Gemini Live是谷歌推出的智能語音助手,具有自然語言理解和多模態識別能力,支持圖像、視頻和語音交互。用戶可通過語音指令控制,實現日常任務自動化。Gemini...