AI項目和框架

FlexIP

FlexIP 是騰訊提出的面向圖像合成的靈活主體屬性編輯框架,平衡圖像生成中的身份保持和個性化編輯。框架采用雙適配器架構,將身份保持與個性化編輯解耦,通過...
閱讀原文

明岐

明岐是上海交通大學計算機學院LoCCS實驗室推出的首個精準診斷罕見病的醫學多模態大模型。基于“大模型能力矩陣 + 專家路由協同”的雙引擎驅動架構,整合醫學影...
閱讀原文

Fourier N1

Fourier N1 是通用機器人公司傅利葉發布的首款開源人形機器人。身高1.3米,體重38公斤,擁有23個自由度,采用鋁合金與工程塑料復合結構,兼具強度與靈活性。...
閱讀原文

Kimi-VL

Kimi-VL 是月之暗面開源的輕量級多模態視覺語言模型,基于 Mixture-of-Experts (MoE) 架構,總參數量為16B,推理時僅激活2.8B。Kimi-VL具備強大的多模態推理...
閱讀原文

FantasyTalking

FantasyTalking 是阿里巴巴 AMAP 團隊和北京郵電大學聯合提出的新型框架,用于從單張靜態肖像生成逼真的可動畫化虛擬形象。基于預訓練的視頻擴散變換器模型,...
閱讀原文

BrowseComp

BrowseComp 是 OpenAI 開源的用于評估 AI 代理網絡瀏覽能力的基準測試。包含 1266 個極具挑戰性的問題,覆蓋電影、科學與技術、藝術、歷史、體育、音樂、電子...
閱讀原文

日日新SenseNova V6

日日新SenseNova V6是商湯推出的日日新第六代多模態融合大模型系列,基于6000億參數的多模態MoE架構,實現文本、圖像和視頻的原生融合。日日新SenseNova V6在...
閱讀原文

DevDocs

DevDocs 是專為程序員和開發者設計的開源技術文檔爬取和處理工具,基于智能爬蟲技術,快速爬取、整理技術文檔,將理解文檔的時間從數周縮短至幾小時。DevDocs...
閱讀原文

MoLing

MoLing 是無依賴的本地辦公自動化助手,是基于計算機和瀏覽器使用的 MCP 服務器。MoLing 基于操作系統 API 實現系統交互,支持文件系統操作(如讀寫、合并、...
閱讀原文

Multi-SWE-bench

Multi-SWE-bench 是字節跳動豆包大模型團隊開源的首個多語言代碼修復基準。在SWE-bench基礎上,首次覆蓋Python之外的7種主流編程語言,包括Java、TypeScript...
閱讀原文

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高效、低延遲的 AI 模型,基于 Gemini 2.5 模型構建。Gemini 2.5 Flash在保持低延遲和成本效益的同時,引入思考能力。
閱讀原文

A2A

A2A(Agent2Agent)是谷歌開源的首個標準智能體交互協議,讓不同框架和供應商構建的AI智能體相互協作。A2A基于標準化的通信方式,打破系統孤島,讓智能體安全...
閱讀原文

DCEdit

DCEdit 是新型的雙層控制圖像編輯方法,是北京交通大學和美圖2MT實驗室聯合推出的。DCEdit基于精確語義定位策略(PSL),用視覺和文本自注意力優化交叉注意力...
閱讀原文

LocAgent

LocAgent是斯坦福大學、耶魯大學和南加州大學等機構聯合推出的,專注于代碼定位任務的框架,幫助開發者快速準確地找到代碼庫中需要修改的部分。LocAgent將代...
閱讀原文

OmniSVG

OmniSVG 是復旦大學和 StepFun 聯合開發的全球首個端到端多模態 SVG(可縮放矢量圖形)生成模型。基于預訓練視覺語言模型(VLM),通過創新的 SVG 標記化方法...
閱讀原文
15051525354155