AI項目和框架

MaskSearch

MaskSearch是阿里巴巴通義實驗室推出的新型通用預訓練框架,提升大型語言模型(LLM)的智能體搜索能力。通過檢索增強掩碼預測(RAMP)任務,讓模型在輸入文本...
閱讀原文

MAS-Zero

MAS-Zero是 Salesforce 推出的多智能體系統(MAS)設計框架,能在無需人類監督的情況下自動設計和優化MAS。框架基于元級設計,在推理時動態地對每個問題實例...
閱讀原文

MultiTalk

MultiTalk 是中山大學深圳校區、美團和香港科技大學聯合推出的新型音頻驅動多人對話視頻生成框架。框架根據多聲道音頻輸入、參考圖像和文本提示,生成包含人...
閱讀原文

Time-R1

Time-R1是伊利諾伊大學香檳分校研究團隊開發的基于3B參數的語言模型,通過獨特的三階段強化學習訓練方法,在時間推理能力上取得了顯著突破。
閱讀原文

MiniMax-Remover

MiniMax-Remover 是新型的視頻目標移除方法,解決現有技術中常見的幻覺物體、視覺偽影以及推理速度緩慢等問題。采用兩階段方法:第一階段基于簡化版的 DiT 架...
閱讀原文

MonkeyOCR

MonkeyOCR 是華中科技大學聯合金山辦公(Kingsoft Office)推出的文檔解析模型,模型支持高效地將非結構化文檔內容轉換為結構化信息。基于精確的布局分析、內...
閱讀原文

Playmate

Playmate是廣州趣丸科技團隊推出的人臉動畫生成框架。框架基于3D隱式空間引導擴散模型,用雙階段訓練框架,根據音頻和指令精準控制人物的表情和頭部姿態,生...
閱讀原文

dots.llm1

dots.llm1 是小紅書 hi lab 開源的中等規模 Mixture of Experts(MoE)文本大模型,具有 1420 億參數,激活參數為 140 億。模型在 11.2T 高質量 token 數據上...
閱讀原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端側大模型。模型分為 8B 和 0.5B 兩種參數規模。8B 閃電稀疏版采用創新稀疏架構,能高效處理長文本任務;0.5B 版本以低計算資...
閱讀原文

Eleven v3

Eleven v3是ElevenLabs推出的先進文本轉語音模型。通過內聯音頻標簽實現情感和語調的精確控制,支持多說話人對話,對話更自然。模型支持超70種語言,文本理解...
閱讀原文

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通義千問團隊發布的文本重排序模型,屬于Qwen3模型家族。采用單塔交叉編碼器架構,輸入文本對后輸出相關性得分。模型通過多階段訓練...
閱讀原文

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基礎模型開發的文本表征、檢索與排序專用模型。繼承了 Qwen3 的先進架構,如 Grouped Query Attention、SwiGLU 激活函數等,通...
閱讀原文

DecipherIt

DecipherIt是AI驅動的研究助手工具,基于智能化手段簡化和優化研究過程。工具支持將各種主題、鏈接和文件轉化為AI生成的研究筆記本,提供全面的總結、互動問...
閱讀原文

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的開源項目,幫助開發者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全棧智能研究助手。
閱讀原文

MoonCast

MoonCast 是零樣本播客生成系統,從純文本源合成自然的播客風格語音。通過長上下文語言模型和大規模語音數據訓練,能生成幾分鐘長的播客音頻,支持中文和英文。
閱讀原文
13132333435155