AI項目和框架

Being-M0

Being-M0 是北京大學、中國人民大學等機構(gòu)聯(lián)合推出的首個大規(guī)模人形機器人通用動作生成模型。Being-M0 基于業(yè)界首個百萬級動作數(shù)據(jù)集 MotionLib,用創(chuàng)新的 Mo...
閱讀原文

DanceGRPO

DanceGRPO 是字節(jié)跳動 Seed 和香港大學聯(lián)合推出的首個統(tǒng)一視覺生成強化學習框架。將強化學習應用在視覺生成領(lǐng)域,覆蓋兩大生成范式(diffusion 和 rectified ...
閱讀原文

AlphaEvolve

AlphaEvolve是谷歌DeepMind推出的通用科學Agent,基于結(jié)合大型語言模型(LLMs)的創(chuàng)造力和自動評估器來設(shè)計和優(yōu)化高級算法。用Gemini Flash和Gemini Pro兩種...
閱讀原文

WorldMem

WorldMem 是南洋理工大學、北京大學和上海 AI Lab 推出的創(chuàng)新 AI 世界生成模型。模型基于引入記憶機制,解決傳統(tǒng)世界生成模型在長時序下缺乏一致性的關(guān)鍵問題...
閱讀原文

GPDiT

GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大學、清華大學、StepFun公司及中國科學技術(shù)大學推出的新型視頻生成模型,模型...
閱讀原文

Skywork-VL Reward

Skywork-VL Reward是Skywork AI開源的多模態(tài)獎勵模型,能為多模態(tài)理解和推理任務提供可靠的獎勵信號。模型基于Qwen2.5-VL-7B-Instruct架構(gòu),基于添加獎勵頭結(jié)...
閱讀原文

ChatUI

ChatUI 是阿里團隊推出的開源智能對話式 UI 組件庫,能幫助開發(fā)者快速構(gòu)建高質(zhì)量的聊天應用,提供響應式設(shè)計、國際化、主題定制等功能。ChatUI 基于阿里巴巴 ...
閱讀原文

AG-UI

AG-UI(Agent-User Interaction Protocol)是開源的、輕量級的、基于事件的協(xié)議,支持標準化AI Agent 與前端應用之間的交互。AG-UI定義16種標準事件類型,支...
閱讀原文

Minion Agent

Minion Agent是Agent框架,支持瀏覽器操作、MCP、自動規(guī)劃和深度研究等功能。Minion Agent支持多種模型,基于靈活的配置選項滿足不同需求。
閱讀原文

OpenVision

OpenVision是加州大學圣克魯茲分校(UCSC)推出的完全開放、高效且靈活的高級視覺編碼器家族,專注于多模態(tài)學習。提供從5.9M到632.1M參數(shù)的多種規(guī)模模型,適...
閱讀原文

FLUX-Text

FLUX-Text 是阿里推出的新型的多語言場景文本編輯框架,基于擴散模型(Diffusion Model)和輕量級字形嵌入模塊。框架基于注入字形條件信息,提升復雜場景下文...
閱讀原文

MCA-Ctrl

MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院計算所和中國科學院大學的推出的圖像定制生成框架,基于文本和復雜視覺條件實現(xiàn)高質(zhì)量的圖...
閱讀原文

AgentCPM-GUI

AgentCPM-GUI 是清華大學和面壁智能團隊聯(lián)合推出的開源端側(cè) GUI Agent ,針對中文應用優(yōu)化。模型基于 MiniCPM-V(80 億參數(shù))構(gòu)建,能接受智能手機截圖作為輸...
閱讀原文

Nexus-Gen

Nexus-Gen 是魔搭團隊、華東師范大學等機構(gòu)推出的開源全能圖像生成模型,支持同時完成圖像理解、生成和編輯任務。Nexus-Gen融合強大的語言模型與擴散模型的能...
閱讀原文

StreamBridge

StreamBridge 是蘋果公司與復旦大學聯(lián)合推出的端側(cè)視頻大語言模型(Video-LLMs)框架,能幫助 AI 實時理解直播流視頻。框架基于內(nèi)存緩沖區(qū)和輪次衰減壓縮策略...
閱讀原文
13940414243155