AI項目和框架
SearchAgent-X
SearchAgent-X 是南開大學和伊利諾伊大學厄巴納香檳分校(UIUC)研究人員推出的高效推理框架,能提升基于大型語言模型(LLM)的搜索Agent的效率。
MagicTryOn
MagicTryOn是浙江大學計算機科學與技術學院、vivo移動通信等機構推出的基于視頻擴散Transformer的視頻虛擬試穿框架。框架替換傳統的U-Net架構為更具表現力的...
Paper2Poster
Paper2Poster是加拿大滑鐵盧大學、新加坡國立大學等機構推出的創新學術框架,基于多模態自動化技術從科學論文生成海報。Paper2Poster推出PosterAgent,一個自...
OmniConsistency
OmniConsistency 是新加坡國立大學推出的圖像風格遷移模型,能解決復雜場景下風格化圖像的一致性問題。模型基于大規模配對的風格化數據進行訓練,用兩階段訓...
AI-Media2Doc
AI-Media2Doc 是開源的音視頻轉文檔工具,基于AI大模型技術,支持將音視頻內容智能轉換為小紅書筆記、公眾號文章、知識筆記、思維導圖和視頻字幕等多種文檔形...
DeepSeek-R1-0528
DeepSeek-R1-0528 是 DeepSeek 團隊推出的最新版AI模型。模型基于 DeepSeek-V3-0324 訓練,參數量達 660B。模型在 HuggingFace 上開源,開發者能自由使用和修...
Ming-lite-omni
Ming-Lite-Omni是螞蟻集團開源的統一多模態大模型。模型基于MoE架構,融合文本、圖像、音頻和視頻等多種模態的感知能力,具備強大的理解和生成能力。模型在多...
HunyuanVideo-Avatar
HunyuanVideo-Avatar是騰訊混元團隊與騰訊音樂天琴實驗室聯合研發的語音數字人模型,基于多模態擴散Transformer架構,能生成動態、情感可控以及多角色對話視...
HunyuanPortrait
HunyuanPortrait 是騰訊 Hunyuan 團隊聯合清華大學、中山大學和香港科技大學等機構共同推出的基于擴散模型的框架,用在生成高度可控且逼真的肖像動畫。基于給...
PC Agent-E
PC Agent-E是上海交通大學和SII聯合推出的高效智能體訓練框架。框架用312條人類標注的計算機使用軌跡,基于Claude 3.7 Sonnet模型合成多樣化的行動決策,顯著...