AI項目和框架

FilMaster

FilMaster 是香港大學、快手科技、微軟研究院和清華大學聯合推出的AI電影制作系統,將電影制作原則與生成式人工智能相結合,實現從劇本到最終影片的全自動制...
閱讀原文

MultiAgentPPT

MultiAgentPPT 是多智能體演示文稿生成系統,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架構。MultiA...
閱讀原文

混元-A13B

混元-A13B是騰訊最新推出的開源大語言模型,基于專家混合(MoE)架構,總參數量達800億,激活參數為130億。具備輕量級設計和高效推理能力,僅需1張中低端GPU...
閱讀原文

Kling-Foley

Kling-Foley 是可靈 AI 推出的多模態視頻生音效模型。模型將視頻和文本提示作為條件輸入,能生成與視頻內容語義相關、時間同步的高質量立體聲音頻,涵蓋音效...
閱讀原文

4D-LRM

4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大學等機構的研究人員共同推出的新型4D重建模型。模型能基于稀疏的輸入視圖和任意...
閱讀原文

VLN-R1

VLN-R1是香港大學和上海人工智能實驗室聯合推出的全新具身智能框架,基于大型視覺語言模型(LVLM)直接將第一人稱視頻流轉換為連續的導航動作。框架基于Habit...
閱讀原文

Nanonets-OCR-s

Nanonets-OCR-s(Nanonets OCR Small)是Nanonets推出的圖像到 Markdown 的 OCR 模型,支持將圖像中的文檔內容轉換為結構化的 Markdown 格式。模型能提取文本...
閱讀原文

Kwai Keye-VL

Kwai Keye-VL 是快手自主研發的多模態大語言模型,基于 Qwen3-8B 語言模型整合SigLIP初始化的視覺編碼器,支持動態分辨率輸入。模型能深度融合和處理文本、圖...
閱讀原文

Gemini CLI

Gemini CLI 是谷歌開源的 AI Agent,將 Gemini 大模型融入開發者終端。Gemini CLI提供強大 AI 功能,如代碼理解、文件操作、命令執行及動態排查問題,助力開...
閱讀原文

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因組。模型能接收長達100萬個堿基對的DNA序列輸入,預測數千種表征其調控活性的分子特性,評估...
閱讀原文

Claudia

Claudia 是為 Claude Code 設計的桌面應用程序和工具包,通過直觀的圖形界面提升 AI 輔助開發的效率和安全性。支持項目與會話管理,用戶可以輕松瀏覽、恢復過...
閱讀原文

DRA-Ctrl

DRA-Ctrl(Dimension-Reduction Attack)是浙江大學聯合螞蟻集團等機構推出的創新跨模態圖片編輯框架。框架借助視頻生成模型的視覺、時間、空間和因果等多維...
閱讀原文

DAMO GRAPE

DAMO GRAPE是浙江省腫瘤醫院與阿里巴巴達摩院聯合推出的全球首個基于平掃CT識別早期胃癌的AI模型。DAMO GRAPE突破傳統影像學限制,基于深度學習分析非增強CT...
閱讀原文

Seed1.6

Seed1.6是字節跳動Seed團隊推出的通用模型系列,融合多模態能力,支持256K長上下文深度推理。Seed1.6沿用Seed1.5稀疏MoE探索成果,經純文本預訓練、多模態混...
閱讀原文

AnimaTensor

AnimaTensor是CagliostroLab團隊和TensorArt共同推出的二次元圖像生成模型。基于創新的V-Prediction技術,用預測圖像生成過程中的“速度”優化噪聲調度和采樣策...
閱讀原文
11718192021146