GLM-4.1V-Thinking
GLM-4.1V-Thinking是智譜AI推出的開源視覺語言模型,專為復雜認知任務設計,支持圖像、視頻、文檔等多模態輸入。模型在GLM-4V架構基礎上引入思維鏈推理機制,...
BlenderFusion
BlenderFusion是Google DeepMind推出的生成式視覺合成框架,將傳統的 3D 編輯軟件(Blender)與AI 模型相結合,實現精準的幾何編輯和多樣的視覺合成。
ThinkSound
ThinkSound是阿里通義語音團隊推出的首個CoT(鏈式思考)音頻生成模型,用在視頻配音,為每一幀畫面生成專屬匹配音效。模型引入CoT推理,解決傳統技術難以捕...
Deep Video Discovery
Deep Video Discovery(DVD)是微軟推出的深度視頻探索智能體,專為理解和分析長視頻設計。Deep Video Discovery將長視頻分割成多個較短的片段,基于大型語言...