AI項目和框架

Reor

Reor是開源的本地化AI個人知識管理應用。應用支持自動鏈接相關筆記、語義搜索和Q&A功能,用戶基于類似Obsidian的Markdown編輯器進行筆記編輯。Reor基于Ol...
閱讀原文

Seedance 1.0

Seedance 1.0 是字節跳動Seed團隊推出的視頻生成基礎模型。模型支持文字與圖片輸入,能生成多鏡頭無縫切換的1080p高品質視頻,具備原生多鏡頭敘事能力,能進...
閱讀原文

o3-pro

o3-pro 是OpenAI推出的強大推理模型,作為 o3 的升級版,在處理復雜問題和提供精準回答方面表現出色,尤其在科學研究、編程、教育和寫作等場景中優勢明顯。o3...
閱讀原文

Magistral

Magistral 是 Mistral AI 推出的推理模型,核心聚焦在透明、多語言和特定領域的推理能力。模型包含 Magistral Small(開源版)和 Magistral Medium(企業版)...
閱讀原文

Vui

Vui 是 Fluxions-AI 團隊開源的輕量級語音對話模型,基于 LLaMA 架構。模型經過 4 萬小時對話訓練,能模擬真實對話中的語氣詞、笑聲和停頓,提供沉浸式交互體...
閱讀原文

Krea 1

Krea 1 是 Krea AI 推出的 AI 圖像生成模型,解決傳統 AI 圖像生成中的“AI 美學”問題。模型能生成高度逼真、紋理清晰的圖像,支持多種藝術風格,提供風格參考...
閱讀原文

InftyThink

InftyThink是創新的大模型推理范式,突破傳統模型在長推理任務中的局限性。通過分段迭代的方式,將復雜的推理過程分解為多個短片段,在每個片段后生成中間總...
閱讀原文

SmolVLA

SmolVLA 是 Hugging Face 開源的輕量級視覺-語言-行動(VLA)模型,專為經濟高效的機器人設計。擁有4.5億參數,模型小巧,可在CPU上運行,單個消費級GPU即可...
閱讀原文

ContentV

ContentV是字節跳動開源的80億參數文生視頻模型框架。將Stable Diffusion 3.5 Large的2D-VAE替換為3D-VAE并引入3D位置編碼,使圖像模型快速獲得視頻生成能力。
閱讀原文

PartCrafter

PartCrafter 是先進的3D生成模型,能從單張RGB圖像中生成多個語義明確且幾何形態各異的3D網格。通過組合潛在空間表示每個3D部件,使用層次化注意力機制在部件...
閱讀原文

MaskSearch

MaskSearch是阿里巴巴通義實驗室推出的新型通用預訓練框架,提升大型語言模型(LLM)的智能體搜索能力。通過檢索增強掩碼預測(RAMP)任務,讓模型在輸入文本...
閱讀原文

MAS-Zero

MAS-Zero是 Salesforce 推出的多智能體系統(MAS)設計框架,能在無需人類監督的情況下自動設計和優化MAS。框架基于元級設計,在推理時動態地對每個問題實例...
閱讀原文

MultiTalk

MultiTalk 是中山大學深圳校區、美團和香港科技大學聯合推出的新型音頻驅動多人對話視頻生成框架。框架根據多聲道音頻輸入、參考圖像和文本提示,生成包含人...
閱讀原文

Time-R1

Time-R1是伊利諾伊大學香檳分校研究團隊開發的基于3B參數的語言模型,通過獨特的三階段強化學習訓練方法,在時間推理能力上取得了顯著突破。
閱讀原文

MiniMax-Remover

MiniMax-Remover 是新型的視頻目標移除方法,解決現有技術中常見的幻覺物體、視覺偽影以及推理速度緩慢等問題。采用兩階段方法:第一階段基于簡化版的 DiT 架...
閱讀原文
12122232425146