AI項目和框架

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的專為推理密集型檢索任務設計的模型。基于 LLaMA3.1-8B 訓練,采用雙編碼器架構,將查詢和文檔分別編碼為嵌入向量,通過余弦相...
閱讀原文

Omni Reference

Omni Reference 是 Midjourney 推出的全能參考功能,支持用戶將特定的人物、物體或場景從參考圖像中嵌入到生成的圖像中。Omni Reference 適用于Midjourney V7...
閱讀原文

Cobra

Cobra(Efficient Line Art COlorization with BRoAder References)是清華大學、香港中文大學和騰訊ARC實驗室推出的漫畫線稿上色框架,專為高精度、高效率和...
閱讀原文

KeySync

KeySync 是帝國理工學院和弗羅茨瓦夫大學推出的用在高分辨率口型同步框架,支持將輸入音頻與視頻中的口型動作對齊。KeySync 基于兩階段框架實現,首先生成關...
閱讀原文

HoloTime

HoloTime 是北京大學深圳研究生院和鵬城實驗室推出的全景 4D 場景生成框架,基于視頻擴散模型將單張全景圖像轉化為具有真實動態效果的全景視頻,進一步重建為...
閱讀原文

T2I-R1

T2I-R1 是香港中文大學和上海AI Lab聯合推出的新型文本生成圖像模型。基于引入雙層推理機制,語義級鏈式思維(CoT)和 Token 級 CoT,實現高層次圖像規劃與低...
閱讀原文

X-Fusion

X-Fusion 是加州大學洛杉磯分校、威斯康星大學麥迪遜分校和 Adobe Research 聯合提出的多模態融合框架,將預訓練的大型語言模型(LLMs)擴展到多模態任務中,...
閱讀原文

Phi-4-reasoning

Phi-4-reasoning 是微軟推出的 140 億參數的推理模型,專為復雜推理任務設計。通過監督微調(SFT)訓練而成,使用了 OpenAI 的 o3-mini 模型生成的高質量推理...
閱讀原文

DianJin-R1

DianJin-R1是阿里云通義點金團隊與蘇州大學聯合推出的金融領域推理增強大模型,專為金融任務設計,融合了先進的技術和全面的數據支持。模型通過推理增強監督...
閱讀原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 開發的輕量級音頻模型,基于 Qwen-2.5-1.5B 構建,僅包含 1.5 億參數。專為長音頻處理設計,能支持長達 15 分鐘的連續音頻輸入,無...
閱讀原文

DeepSeek-Prover-V2

DeepSeek-Prover-V2 是深度求索團隊 DeepSeek 開源的專注于數學推理的超大規模語言模型。包含兩個版本:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B,...
閱讀原文

VoltAgent

VoltAgent 是開源的 TypeScript 框架,用在構建和編排 AI Agent。VoltAgent 提供構建 AI 應用的基礎結構和工具,簡化與大語言模型(LLM)的交互、狀態管理、...
閱讀原文

Rowboat

Rowboat 是開源的低代碼 AI IDE,專注于構建多智能體助手的 MCP(多云平臺)工具。通過可視化界面和 AI 輔助開發功能,幫助用戶快速設計、配置和測試智能體工...
閱讀原文

Qwen2.5-Omni-3B

Qwen2.5-Omni-3B 是阿里巴巴 Qwen 團隊推出的輕量級多模態 AI 模型。是 Qwen2.5-Omni-7B 的精簡版,專為消費級硬件設計,支持文本、音頻、圖像和視頻等多種輸...
閱讀原文

URM

URM(Universal Recommendation Model)是阿里媽媽推出的世界知識大模型,基于知識注入和信息對齊,將LLM的通用知識與電商領域的專業知識相結合,解決傳統LLM...
閱讀原文
156789117