AI項目和框架

DeepSeek Engineer

DeepSeek Engineer 是集成DeepSeek API 的AI編程助手,基于命令行界面讓用戶能讀取本地文件、創建新文件及實時對現有文件進行差異編輯。DeepSeek Engineer用 ...
閱讀原文

VideoPhy

VideoPhy是UCLA和谷歌研究研究院聯合推出的,首個評估視頻生成模型物理常識能力的基準測試,能衡量模型生成的視頻是否遵循現實世界的物理規則。VideoPhy基準...
閱讀原文

Large Motion Model

Large Motion Model(LMM)是統一的多模態運動生成模型,是新加坡南洋理工大學S-Lab和商湯科技研究團隊共同推出的。LMM能處理包括文本到運動、音樂到舞蹈等多...
閱讀原文

StereoCrafter

StereoCrafter是騰訊AI Lab和ARC Lab共同推出的創新框架,能將單目視頻(2D視頻)轉換為立體3D視頻,滿足日益增長的3D內容需求。StereoCrafter基于深度估計、...
閱讀原文

SPAR

SPAR是智譜團隊推出的自我博弈框架,能增強大型語言模型在遵循指令方面的能力。框架基于內部的生成者和完善者兩個角色進行互動,生成者執行指令生成回復,完...
閱讀原文

LowCodeEngine

LowCodeEngine是阿里巴巴開源的低代碼開發框架,基于提供拖拽、配置等簡單操作,讓開發者快速構建復雜的系統頁面。框架以強大的定制能力、優雅的開發體驗、豐...
閱讀原文

Qwen-Agent

Qwen-Agent是基于通義千問模型(Qwen)的開源Agent開發框架,支持開發者用Qwen模型的指令遵循、工具使用、規劃和記憶能力構建智能代理應用。Qwen-Agent支持函...
閱讀原文

Mind GPT-3o

Mind GPT-3o是理想汽車推出的多模態端到端大模型,融合語音、視覺和語言理解技術,實現高效實時交互。Mind GPT-3o具備記憶、規劃、工具使用和表達能力,能提...
閱讀原文

瑯琊

瑯琊是中國科學院海洋研究所自主研發的新一代海洋人工智能大模型1.0版本,專注于海洋狀態變量預報。模型結合了先進的人工智能算法和專業的海洋科學知識,能實...
閱讀原文

DynamicControl

DynamicControl是騰訊優圖聯合南洋理工、浙大等研究機構推出的集成多模態大語言模型(MLLM)推理能力的文本生成圖像(T2I)任務新框架。DynamicControl通過自...
閱讀原文

VE-Bench

VE-Bench 是北京大學的研究團隊 MMCAL 最近發布首個專門針對視頻編輯質量評估的指標。VE-Bench 的設計目標是與人類感知能力高度一致,更準確地評估視頻編輯效...
閱讀原文

EDTalk

EDTalk是上海交通大學聯合網易研發的音頻驅動唇部同步模型,能實現對嘴型、頭部姿態和情感表情的獨立操控。只需上傳一張圖片、一段音頻和參考視頻,就能驅動...
閱讀原文

video-analyzer

video-analyzer是開源的視頻分析工具,結合Llama的11B視覺模型和OpenAI的Whisper模型來提取視頻關鍵幀、轉錄音頻內容,并生成視頻的詳細描述。工具支持完全本...
閱讀原文

PeterCat

PeterCat是開源的智能答疑機器人助手。PeterCat能幫助開發者和社區維護者更高效地解決技術問題,提升社區支持效率。PeterCat基于自動構建知識庫,能與GitHub...
閱讀原文

PartGen

PartGen是先進的3D對象生成和重建框架,是牛津大學的視覺幾何小組和Meta AI共同推出的。PartGen能識別并生成由有意義部分組成的3D對象,3D對象能基于文本提示...
閱讀原文
18889909192155