AI項目和框架

BLIP3-o

BLIP3-o是Salesforce Research等機構推出的創新多模態模型,融合自回歸模型的推理和指令遵循能力及擴散模型的強大生成能力。模型基于擴散語義豐富的CLIP圖像...
閱讀原文

ShotAdapter

ShotAdapter是Adobe聯合UIUC推出的用在文本到多鏡頭視頻生成的框架,基于微調預訓練的文本到視頻模型,引入過渡標記和局部注意力掩碼策略,實現對多鏡頭視頻...
閱讀原文

Pemo

Pemo是AI驅動的文檔管理工具。工具支持PDF、Epub、Word等多種格式文檔的導入與管理,具備一鍵翻譯、智能總結、思維導圖生成等功能,幫助用戶快速理解復雜文獻...
閱讀原文

OpenMemory MCP

OpenMemory MCP 是mem0推出的基于開放模型上下文協議(MCP)構建的開源工具,能解決 AI 工具記憶痛點,實現不同工具間共享上下文信息。OpenMemory MCP支持 10...
閱讀原文

Toolkami

Toolkami 是極簡的 AI Agent 框架,用七種工具支持運行, 包括讀(Read)、寫(Write Diff)、瀏覽(Browse)、命令(Command)、提問(Ask)、思考(Think)。框架支持 T...
閱讀原文

SWE-1

SWE-1是Windsurf團隊推出的首個軟件工程 AI 模型系列,專為整個軟件開發流程優化,涵蓋代碼生成、測試、調試、資料查找等開發環節,提升開發效率和用戶體驗。
閱讀原文

DICE-Talk

DICE-Talk是復旦大學聯合騰訊優圖實驗室推出的新穎情感化動態肖像生成框架,支持生成具有生動情感表達且保持身份一致性的動態肖像視頻。DICE-Talk引入情感關...
閱讀原文

混元圖像2.0

混元圖像2.0(Hunyuan Image 2.0)是騰訊推出的業內首個毫秒級響應的實時生圖大模型。混元圖像2.0支持文本、語音、草圖等多種交互方式,用戶輸入指令后,圖像...
閱讀原文

Paper2Coder

Paper2Coder 是韓國科學技術院推出的多智能體大語言模型(LLM)系統,支持將機器學習領域的科學論文自動轉換為代碼庫。基于規劃、分析和代碼生成三個階段,將...
閱讀原文

Sketch2Anim

Sketch2Anim 是愛丁堡大學聯合Snap Research、東北大學推出的自動化框架,能將2D草圖故事板直接轉換為高質量的3D動畫。基于條件運動合成技術,用3D關鍵姿勢、...
閱讀原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到語音(TTS)模型。模型基于回歸 Transformer 架構,實現零樣本語音克隆,僅需幾秒參考語音能生成高度相似的目標語音...
閱讀原文

Stable Audio Open Small

Stable Audio Open Small 是 Stability AI 與 Arm 合作推出的輕量級文本到音頻生成模型。基于 Stable Audio Open 模型,參數量從11億減少到3.41億,生成速度...
閱讀原文

FaceShot

FaceShot是同濟大學、上海 AI Lab和南京理工大學推出的新型無需訓練的肖像動畫生成框架。用外觀引導的地標匹配模塊和基于坐標的地標重定位模塊,為各種角色生...
閱讀原文

MT-Color

MT-Color是上海交通大學聯合嗶哩嗶哩推出的基于擴散模型的可控圖像著色框架,基于用戶提供的實例感知文本和掩碼實現精確的實例級圖像著色。框架基于像素級掩...
閱讀原文

Being-M0

Being-M0 是北京大學、中國人民大學等機構聯合推出的首個大規模人形機器人通用動作生成模型。Being-M0 基于業界首個百萬級動作數據集 MotionLib,用創新的 Mo...
閱讀原文
123116