AI項目和框架

DICE-Talk

DICE-Talk是復旦大學聯合騰訊優圖實驗室推出的新穎情感化動態肖像生成框架,支持生成具有生動情感表達且保持身份一致性的動態肖像視頻。DICE-Talk引入情感關...
閱讀原文

混元圖像2.0

混元圖像2.0(Hunyuan Image 2.0)是騰訊推出的業內首個毫秒級響應的實時生圖大模型。混元圖像2.0支持文本、語音、草圖等多種交互方式,用戶輸入指令后,圖像...
閱讀原文

Paper2Coder

Paper2Coder 是韓國科學技術院推出的多智能體大語言模型(LLM)系統,支持將機器學習領域的科學論文自動轉換為代碼庫。基于規劃、分析和代碼生成三個階段,將...
閱讀原文

Sketch2Anim

Sketch2Anim 是愛丁堡大學聯合Snap Research、東北大學推出的自動化框架,能將2D草圖故事板直接轉換為高質量的3D動畫。基于條件運動合成技術,用3D關鍵姿勢、...
閱讀原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到語音(TTS)模型。模型基于回歸 Transformer 架構,實現零樣本語音克隆,僅需幾秒參考語音能生成高度相似的目標語音...
閱讀原文

Stable Audio Open Small

Stable Audio Open Small 是 Stability AI 與 Arm 合作推出的輕量級文本到音頻生成模型。基于 Stable Audio Open 模型,參數量從11億減少到3.41億,生成速度...
閱讀原文

FaceShot

FaceShot是同濟大學、上海 AI Lab和南京理工大學推出的新型無需訓練的肖像動畫生成框架。用外觀引導的地標匹配模塊和基于坐標的地標重定位模塊,為各種角色生...
閱讀原文

MT-Color

MT-Color是上海交通大學聯合嗶哩嗶哩推出的基于擴散模型的可控圖像著色框架,基于用戶提供的實例感知文本和掩碼實現精確的實例級圖像著色。框架基于像素級掩...
閱讀原文

Being-M0

Being-M0 是北京大學、中國人民大學等機構聯合推出的首個大規模人形機器人通用動作生成模型。Being-M0 基于業界首個百萬級動作數據集 MotionLib,用創新的 Mo...
閱讀原文

DanceGRPO

DanceGRPO 是字節跳動 Seed 和香港大學聯合推出的首個統一視覺生成強化學習框架。將強化學習應用在視覺生成領域,覆蓋兩大生成范式(diffusion 和 rectified ...
閱讀原文

AlphaEvolve

AlphaEvolve是谷歌DeepMind推出的通用科學Agent,基于結合大型語言模型(LLMs)的創造力和自動評估器來設計和優化高級算法。用Gemini Flash和Gemini Pro兩種...
閱讀原文

WorldMem

WorldMem 是南洋理工大學、北京大學和上海 AI Lab 推出的創新 AI 世界生成模型。模型基于引入記憶機制,解決傳統世界生成模型在長時序下缺乏一致性的關鍵問題...
閱讀原文

GPDiT

GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大學、清華大學、StepFun公司及中國科學技術大學推出的新型視頻生成模型,模型...
閱讀原文

Skywork-VL Reward

Skywork-VL Reward是Skywork AI開源的多模態獎勵模型,能為多模態理解和推理任務提供可靠的獎勵信號。模型基于Qwen2.5-VL-7B-Instruct架構,基于添加獎勵頭結...
閱讀原文

ChatUI

ChatUI 是阿里團隊推出的開源智能對話式 UI 組件庫,能幫助開發者快速構建高質量的聊天應用,提供響應式設計、國際化、主題定制等功能。ChatUI 基于阿里巴巴 ...
閱讀原文
12930313233146