AI項目和框架

SearchAgent-X

SearchAgent-X 是南開大學和伊利諾伊大學厄巴納香檳分校(UIUC)研究人員推出的高效推理框架,能提升基于大型語言模型(LLM)的搜索Agent的效率。
閱讀原文

WebAgent

WebAgent是阿里巴巴開源的自主搜索AI Agent,具備端到端的自主信息檢索與多步推理能力。WebAgent能像人類一樣在網絡環境中主動感知、決策和行動,應用在學術...
閱讀原文

MagicTryOn

MagicTryOn是浙江大學計算機科學與技術學院、vivo移動通信等機構推出的基于視頻擴散Transformer的視頻虛擬試穿框架。框架替換傳統的U-Net架構為更具表現力的...
閱讀原文

可靈2.1

可靈2.1是快手推出的AI視頻生成模型,模型現已上線可靈AI視頻平臺。平臺更新包含可靈2.1和可靈2.1大師版兩大基礎模型。模型在速度、效果和價格上都有顯著提升...
閱讀原文

Paper2Poster

Paper2Poster是加拿大滑鐵盧大學、新加坡國立大學等機構推出的創新學術框架,基于多模態自動化技術從科學論文生成海報。Paper2Poster推出PosterAgent,一個自...
閱讀原文

OmniConsistency

OmniConsistency 是新加坡國立大學推出的圖像風格遷移模型,能解決復雜場景下風格化圖像的一致性問題。模型基于大規模配對的風格化數據進行訓練,用兩階段訓...
閱讀原文

AI-Media2Doc

AI-Media2Doc 是開源的音視頻轉文檔工具,基于AI大模型技術,支持將音視頻內容智能轉換為小紅書筆記、公眾號文章、知識筆記、思維導圖和視頻字幕等多種文檔形...
閱讀原文

DeepSeek-R1-0528

DeepSeek-R1-0528 是 DeepSeek 團隊推出的最新版AI模型。模型基于 DeepSeek-V3-0324 訓練,參數量達 660B。模型在 HuggingFace 上開源,開發者能自由使用和修...
閱讀原文

CoGenAV

CoGenAV - 通義聯合深圳技術大學推出的多模態語音表征模型
閱讀原文

Onit

Onit是為Mac設計的AI聊天助手,支持停靠在任何應用程序中。Onit支持高亮文本自動加載,用戶只需選擇文本,Onit能自動作為上下文打開,無需復制粘貼。
閱讀原文

Ming-lite-omni

Ming-Lite-Omni是螞蟻集團開源的統一多模態大模型。模型基于MoE架構,融合文本、圖像、音頻和視頻等多種模態的感知能力,具備強大的理解和生成能力。模型在多...
閱讀原文

HunyuanVideo-Avatar

HunyuanVideo-Avatar是騰訊混元團隊與騰訊音樂天琴實驗室聯合研發的語音數字人模型,基于多模態擴散Transformer架構,能生成動態、情感可控以及多角色對話視...
閱讀原文

Jodi

Jodi是中國科學院計算技術研究所和中國科學院大學推出的擴散模型框架,基于聯合建模圖像域和多個標簽域,將視覺生成與理解統一起來。
閱讀原文

HunyuanPortrait

HunyuanPortrait 是騰訊 Hunyuan 團隊聯合清華大學、中山大學和香港科技大學等機構共同推出的基于擴散模型的框架,用在生成高度可控且逼真的肖像動畫。基于給...
閱讀原文

PC Agent-E

PC Agent-E是上海交通大學和SII聯合推出的高效智能體訓練框架。框架用312條人類標注的計算機使用軌跡,基于Claude 3.7 Sonnet模型合成多樣化的行動決策,顯著...
閱讀原文
12425262728146