AI項目和框架

InternVLA·M1

InternVLA·M1 是上海人工智能實驗室開發的具身操作“大腦”,是面向指令跟隨的雙系統操作大模型。構建了覆蓋“思考-行動-自主學習”的完整閉環,負責高階的空間推...
閱讀原文

VLAC

VLAC是上海人工智能實驗室發布的具身獎勵大模型。以InternVL多模態大模型為基礎,融合互聯網視頻數據和機器人操作數據,為機器人在真實世界中的強化學習提供...
閱讀原文

RustGPT

RustGPT 是用 Rust 編寫的 Transformer 架構語言模型。RustGPT從零開始構建,不依賴任何外部機器學習框架,僅用 ndarray 進行矩陣運算。
閱讀原文

PromptEnhancer

PromptEnhancer是騰訊混元團隊開源的用在提升文本到圖像(T2I)模型的提示重寫框架,通過思維鏈(Chain-of-Thought,CoT)提示重寫和專用的獎勵模型AlignEval...
閱讀原文

Nano Bananary

Nano Bananary(香蕉超市) 是開源的圖像編輯工具,基于 Google Gemini 圖像模型開發,支持中文界面和明暗主題切換,提供 50 多種圖像轉換效果,無需復雜提示...
閱讀原文

InfiniteTalk

InfiniteTalk是美團視覺智能部推出的新型數字人驅動技術,通過稀疏幀video dubbing范式,僅需少量關鍵幀能驅動數字人人生成自然流暢的視頻,解決傳統技術中口...
閱讀原文

LLaSO

LLaSO(Large Language and Speech Model)是北京深度邏輯智能科技有限公司推出的全球首個完全開源的語音模型,能解決大型語音語言模型(LSLM)領域長期存在...
閱讀原文

Lumina-DiMOO

Lumina-DiMOO是上海人工智能實驗室等機構開源的新一代多模態生成與理解模型。模型采用全離散擴散架構,統一處理文本、圖像等多模態數據,支持文本到圖像生成...
閱讀原文

UnifoLM-WMA-0

UnifoLM-WMA-0 是宇樹科技開源的跨多類機器人本體的世界模型 - 動作架構,專為通用機器人學習設計。核心是世界模型,能理解機器人與環境的物理交互,具備仿真...
閱讀原文

GPT-5-Codex

GPT-5-Codex 是 OpenAI 推出的專為編程優化的模型,基于 GPT-5 進一步強化。模型聚焦于真實世界的軟件工程任務,如從零搭建項目、代碼重構、調試、測試和代碼...
閱讀原文

ROMA

ROMA(Recursive Open Meta-Agent) 是Sentient AGI團隊開源的多Agent系統框架,通過遞歸層次結構將復雜任務拆解為可并行的子任務,由父節點分配給子節點執行...
閱讀原文

Grok 4 Fast

Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特點是響應速度快,最高可達標準版的10倍,生成速度每秒75個token,能快速完成簡單查詢、基礎代碼生成等任...
閱讀原文

Mini-o3

Mini-o3 是字節跳動和香港大學聯合推出的開源模型,專為解決復雜的視覺搜索問題而設計。模型通過強化學習和基于圖像的工具,能執行深度多輪推理,推理輪次可...
閱讀原文

ERNIE-4.5-21B-A3B-Thinking

ERNIE-4.5-21B-A3B-Thinking 是百度推出的專注于推理任務的大型語言模型。采用混合專家(MoE)架構,總參數量達210億,每個token激活30億參數,支持128K的長...
閱讀原文

FunAudio-ASR

FunAudio-ASR 是阿里巴巴達摩院推出的端到端語音識別大模型,專為解決企業落地中的關鍵問題設計。通過創新的 Context 增強模塊,有效優化了“幻覺”和“串語種”...
閱讀原文
11112131415155