AndroidGen
AndroidGen 是智譜技術團隊推出增強基于大語言模型(LLM)的 Agent 能力的框架,特別是在數據稀缺的情況下。框架通過收集人類任務軌跡基于這些軌跡訓練語言模...
Qwen2.5-VL-32B
Qwen2.5-VL-32B是阿里巴巴開源的多模態模型,參數規模為32B。模型在Qwen2.5-VL系列的基礎上,基于強化學習優化,具備更符合人類偏好的回答風格、顯著提升的數...
LHM
LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通義實驗室推出的從單張圖像重建可動畫化3D人體模型。基于多模態Transformer架構,融合3D幾何...
MoshiVis
MoshiVis 是 Kyutai 推出的開源多模態語音模型,基于 Moshi 實時對話語音模型開發,增加了視覺輸入功能。能實現圖像的自然、實時語音交互,將語音和視覺信息...
BlockDance
BlockDance 是復旦大學聯合字節跳動智能創作團隊推出的用在加速擴散模型的新方法。BlockDance 基于識別重用相鄰時間步中結構相似的時空特征(STSS),減少冗...
Reve Image
Reve Image 是 Reve 推出的全新 AI 圖像生成模型。專注于提升美學表現、精確的提示遵循能力以及出色的排版設計,能生成高質量的視覺作品。模型在生成圖像時展...