AI項目和框架
InternVLA·M1
InternVLA·M1 是上海人工智能實驗室開發的具身操作“大腦”,是面向指令跟隨的雙系統操作大模型。構建了覆蓋“思考-行動-自主學習”的完整閉環,負責高階的空間推...
PromptEnhancer
PromptEnhancer是騰訊混元團隊開源的用在提升文本到圖像(T2I)模型的提示重寫框架,通過思維鏈(Chain-of-Thought,CoT)提示重寫和專用的獎勵模型AlignEval...
Nano Bananary
Nano Bananary(香蕉超市) 是開源的圖像編輯工具,基于 Google Gemini 圖像模型開發,支持中文界面和明暗主題切換,提供 50 多種圖像轉換效果,無需復雜提示...
InfiniteTalk
InfiniteTalk是美團視覺智能部推出的新型數字人驅動技術,通過稀疏幀video dubbing范式,僅需少量關鍵幀能驅動數字人人生成自然流暢的視頻,解決傳統技術中口...
Lumina-DiMOO
Lumina-DiMOO是上海人工智能實驗室等機構開源的新一代多模態生成與理解模型。模型采用全離散擴散架構,統一處理文本、圖像等多模態數據,支持文本到圖像生成...
UnifoLM-WMA-0
UnifoLM-WMA-0 是宇樹科技開源的跨多類機器人本體的世界模型 - 動作架構,專為通用機器人學習設計。核心是世界模型,能理解機器人與環境的物理交互,具備仿真...
GPT-5-Codex
GPT-5-Codex 是 OpenAI 推出的專為編程優化的模型,基于 GPT-5 進一步強化。模型聚焦于真實世界的軟件工程任務,如從零搭建項目、代碼重構、調試、測試和代碼...
Grok 4 Fast
Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特點是響應速度快,最高可達標準版的10倍,生成速度每秒75個token,能快速完成簡單查詢、基礎代碼生成等任...
ERNIE-4.5-21B-A3B-Thinking
ERNIE-4.5-21B-A3B-Thinking 是百度推出的專注于推理任務的大型語言模型。采用混合專家(MoE)架構,總參數量達210億,每個token激活30億參數,支持128K的長...
FunAudio-ASR
FunAudio-ASR 是阿里巴巴達摩院推出的端到端語音識別大模型,專為解決企業落地中的關鍵問題設計。通過創新的 Context 增強模塊,有效優化了“幻覺”和“串語種”...
粵公網安備 44011502001135號