AI項目和框架

FlashVideo

FlashVideo是字節跳動團隊提出的高效的高分辨率視頻生成框架,通過兩階段方法解決了傳統單階段擴散模型在高分辨率視頻生成中面臨的巨大計算成本問題。在第一...
閱讀原文

DynVFX

DynVFX是創新的視頻增強技術,能根據簡單的文本指令將動態內容無縫集成到真實視頻中。通過結合預訓練的文本到視頻擴散模型和視覺語言模型(VLM),實現了在不...
閱讀原文

WorldSense

WorldSense是小紅書和上海交通大學推出的,用在評估多模態大型語言模型(MLLMs)在現實世界場景中對視覺、聽覺和文本輸入的綜合理解能力的基準測試。WorldSen...
閱讀原文

Airweave

Airweave 是開源工具,能將任何應用程序的數據(包括API、數據庫、網站等)同步到圖數據庫和向量數據庫中,讓數據能基于智能代理或搜索機制進行檢索。Airweav...
閱讀原文

FireRedASR

FireRedASR 是小紅書開源的工業級自動語音識別(ASR)模型家族,支持普通話、中文方言和英語,在普通話 ASR 基準測試中達到了新的最佳水平(SOTA),在歌詞識...
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學語言技術實驗室、中國科學院自動化研究所推出的新型多模態推理范式,基于生成圖像可視化...
閱讀原文

HMA

HMA(Heterogeneous Masked Autoregression)是麻省理工學院、Meta和伊利諾伊大學香檳分校開源的,用在建模機器人動作視頻動態的方法。HMA基于異構預訓練,用...
閱讀原文

鯨噴 DeepRant

DeepRant(中文名:鯨噴)是專為游戲玩家設計的多語言快捷翻譯工具。DeepRant能夠幫助玩家在國際服務器中快速進行文字交流,消除語言障礙。玩家在游戲中選中...
閱讀原文

StochSync

StochSync(Stochastic Diffusion Synchronization)是創新的圖像生成技術,專門用于在復雜空間(如360°全景圖或3D表面紋理)中生成高質量圖像。結合了擴散同...
閱讀原文

EliGen

EliGen是浙江大學和阿里巴巴集團聯合開發的新型的實體級可控圖像生成框架,通過引入區域注意力機制,無需額外參數即可將實體提示和任意形狀的空間掩碼無縫集...
閱讀原文

Hibiki

Hibiki是Kyutai Labs開源的用在同時語音翻譯的解碼器模型,能實時將一種語言的語音翻譯成另一種語言的語音或文本。Hibiki基于多流語言模型架構,同步處理源語...
閱讀原文

AlphaGeometry2

AlphaGeometry2 是谷歌 DeepMind 推出的先進的人工智能系統,專門用于解決國際數學奧林匹克競賽(IMO)中的幾何問題。結合了神經符號方法,將谷歌 Gemini 系...
閱讀原文

Agentic Object Detection

Agentic Object Detection 是吳恩達團隊開發的新型目標檢測技術,通過智能代理(Agent)系統實現無需標注數據的目標檢測。用戶僅需輸入文字提示,AI 基于推理...
閱讀原文

Agno

Agno 是構建智能代理(Agents)的輕量級框架。Agno 支持多模態(文本、圖像、音頻、視頻)和多代理協作,能快速創建代理,速度比 LangGraph 快 5000 倍,支持...
閱讀原文

Ola

Ola是清華大學、騰訊 Hunyuan 研究團隊和新加坡國立大學 S-Lab 合作開發的全模態語言模型。通過漸進式模態對齊策略,逐步擴展語言模型支持的模態,從圖像和文...
閱讀原文
16768697071146