AI項目和框架

UniFluid

UniFluid 是谷歌 DeepMind 和麻省理工學院聯合推出的,統一的自回歸框架,用在聯合視覺生成和理解任務。基于連續視覺標記處理多模態圖像和文本輸入,生成離散...
閱讀原文

Multi-Speaker

Multi-Speaker是AudioShake推出的全球首個高分辨率多說話人分離模型。支持將音頻中的多個說話人精準分離到不同軌道,解決傳統音頻工具在處理重疊語音時的難題...
閱讀原文

UniAct

UniAct 是新型的具身基礎模型框架,解決不同機器人之間行為異構性的問題。通過學習通用行為,捕捉不同機器人共享的原子行為特征,消除因物理形態和控制接口差...
閱讀原文

ReCamMaster

ReCamMaster 是浙江大學、快手科技等聯合推出的視頻重渲染框架,能根據新的相機軌跡重新生成視頻內容。通過預訓練模型和幀維度條件機制,結合多相機同步數據...
閱讀原文

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能將 2D 圖像轉換為具有真實深度和透視感的 3D 視頻。用戶可以通過指定相機軌跡和多種動態路徑(如...
閱讀原文

Cube 3D

Cube 3D 是 Roblox 推出的AI 3D生成大模型,基于 AI 技術高效生成 3D 模型和環境。Cube 3D支持直接從文本描述生成完整的 3D 對象,與游戲引擎兼容。Cube 3D能...
閱讀原文

SmolDocling

SmolDocling(SmolDocling-256M-preview )是高效輕量級的多模態文檔處理模型。能將文檔圖像端到端地轉換為結構化文本,支持文本、公式、圖表等多種元素識別...
閱讀原文

GR00T N1

GR00T N1 是英偉達推出的全球首個開源基礎模型,專為通用人形機器人設計。基于多模態輸入(如語言和圖像)實現多樣化環境中的操作任務。GR00T N1 基于大規模...
閱讀原文

LangManus

LangManus 是 AI 自動化框架,基于分層多智能體系統設計。包含多種智能體,如協調員、規劃員、研究員、程序員等,各司其職,協同完成復雜任務。框架支持多種...
閱讀原文

Claude 3.7 Max

Claude 3.7 Max 是 Cursor 推出的專為復雜代碼任務設計的最新 AI 模型,稱為史上最強代碼助手。基于 Claude 3.7 思考模型,具備 200k 超大上下文窗口,支持處...
閱讀原文

Skywork R1V

Skywork R1V是昆侖萬維開源的首款工業界多模態思維鏈推理模型,具備強大的視覺鏈式推理能力。Skywork R1V能對視覺輸入進行多步邏輯推理,解決復雜的視覺任務...
閱讀原文

Chirp 3

Chirp 3 是谷歌云推出的高清語音合成模型,專為生成自然、生動的語音而設計。支持 248 種聲音和 31 種語言,能捕捉人類語調的細微差別,語音輸出更加貼近真實...
閱讀原文

I2V3D

I2V3D是香港城市大學和微軟 GenAI創新的圖像到視頻生成框架,支持將靜態圖像轉換為動態視頻,基于3D幾何引導實現精確的動畫控制。I2V3D結合傳統計算機圖形學...
閱讀原文

OpenBioMed

OpenBioMed 是清華大學智能產業研究院(AIR)和水木分子共同推出的開源平臺,專注于 AI 驅動的生物醫學研究。是多模態表征學習工具包,能處理分子、蛋白質、...
閱讀原文

amis

amis 是百度開源的低代碼前端框架,基于簡單的 JSON 配置快速生成各種后臺頁面,無需編寫復雜前端代碼。amis支持表單、表格、圖表、CRUD 操作等功能,提供豐...
閱讀原文
15859606162155