AI項目和框架

CAR

CAR(Certainty-based Adaptive Reasoning)是字節跳動聯合復旦大學推出的自適應推理框架,能提升大型語言模型(LLM)和多模態大型語言模型(MLLM)在不同任...
閱讀原文

WonderPlay

WonderPlay 是斯坦福大學聯合猶他大學推出的新型框架,支持從單張圖片和用戶定義的動作生成動態3D場景?;诮Y合物理模擬和視頻生成技術,用物理求解器模擬粗...
閱讀原文

LMEval

LMEval 是谷歌推出的開源框架,用在簡化大型模型(LLMs)的跨提供商評估。框架支持多模態(文本、圖像、代碼)和多指標評估,兼容 Google、OpenAI、Anthropic...
閱讀原文

LLaDA-V

LLaDA-V是中國人民大學高瓴人工智能學院、螞蟻集團推出的多模態大語言模型(MLLM),基于純擴散模型架構,專注于視覺指令微調。模型在LLaDA的基礎上,引入視...
閱讀原文

Company Research Agent

Company Research Agent是基于多智能體框架的公司研究工具,支持一鍵自動生成全面的公司研究報告。工具從公司網站、新聞文章、財務報告和行業分析等多源數據...
閱讀原文

Direct3D-S2

Direct3D-S2 是南京大學、DreamTech、復旦大學和牛津大學的研究人員共同推出的高分辨率 3D 生成框架,基于稀疏體積表示和創新的空間稀疏注意力(SSA)機制,...
閱讀原文

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集團 Qwen-Doc 團隊推出的,基于強化學習訓練的首個長文本推理大模型。模型基于漸進式上下文擴展、課程引導的強化學習和難度感知...
閱讀原文

AgenticSeek

AgenticSeek是完全本地化的開源AI助手,也是 Manus 的開源平替。AgenticSeek能在本地設備上自主執行任務,如瀏覽網頁、編寫代碼、規劃復雜項目等,所有數據和...
閱讀原文

Slidev

Slidev 是開源的幻燈片制作工具,基于 Markdown + Vue 技術棧實現。工具支持用簡單的 Markdown 語法創建幻燈片,支持代碼高亮、實時編碼演示、數學公式渲染、...
閱讀原文

Morphik

Morphik 是開源的多模態檢索增強生成(RAG)工具,專為處理高技術性和視覺內容豐富的文檔設計。支持對圖像、PDF、視頻等多種格式的文檔進行搜索,采用 ColPal...
閱讀原文

MTVCrafter

MTVCrafter是中國科學院深圳先進技術研究院計算機視覺與模式識別實驗室、中國電信人工智能研究所等機構推出的新型人類圖像動畫框架,基于原始3D運動序列進行...
閱讀原文

Pixel Reasoner

Pixel Reasoner是滑鐵盧大學、香港科技大學、中國科學技術大學等機構推出的視覺語言模型(VLM),基于像素空間推理增強模型對視覺信息的理解和推理能力。
閱讀原文

SurfSense

SurfSense 是開源的 AI 研究工具,類似于 NotebookLM 和 Perplexity,具備更強的擴展性。工具能與多種外部數據源(如搜索引擎、Slack、Notion、YouTube、GitH...
閱讀原文

Vid2World

Vid2World是清華大學聯合重慶大學推出的創新框架,支持將全序列、非因果的被動視頻擴散模型(VDM)轉換為自回歸、交互式、動作條件化的世界模型。模型基于視...
閱讀原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的實驗性文本擴散模型。與傳統自回歸模型逐詞生成文本不同,基于逐步細化噪聲生成輸出,能快速迭代糾正錯誤,讓Gemini Diffusion...
閱讀原文
12526272829146