AI項目和框架

HoloTime

HoloTime 是北京大學深圳研究生院和鵬城實驗室推出的全景 4D 場景生成框架,基于視頻擴散模型將單張全景圖像轉化為具有真實動態效果的全景視頻,進一步重建為...
閱讀原文

T2I-R1

T2I-R1 是香港中文大學和上海AI Lab聯合推出的新型文本生成圖像模型。基于引入雙層推理機制,語義級鏈式思維(CoT)和 Token 級 CoT,實現高層次圖像規劃與低...
閱讀原文

X-Fusion

X-Fusion 是加州大學洛杉磯分校、威斯康星大學麥迪遜分校和 Adobe Research 聯合提出的多模態融合框架,將預訓練的大型語言模型(LLMs)擴展到多模態任務中,...
閱讀原文

Phi-4-reasoning

Phi-4-reasoning 是微軟推出的 140 億參數的推理模型,專為復雜推理任務設計。通過監督微調(SFT)訓練而成,使用了 OpenAI 的 o3-mini 模型生成的高質量推理...
閱讀原文

DianJin-R1

DianJin-R1是阿里云通義點金團隊與蘇州大學聯合推出的金融領域推理增強大模型,專為金融任務設計,融合了先進的技術和全面的數據支持。模型通過推理增強監督...
閱讀原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 開發的輕量級音頻模型,基于 Qwen-2.5-1.5B 構建,僅包含 1.5 億參數。專為長音頻處理設計,能支持長達 15 分鐘的連續音頻輸入,無...
閱讀原文

DeepSeek-Prover-V2

DeepSeek-Prover-V2 是深度求索團隊 DeepSeek 開源的專注于數學推理的超大規模語言模型。包含兩個版本:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B,...
閱讀原文

VoltAgent

VoltAgent 是開源的 TypeScript 框架,用在構建和編排 AI Agent。VoltAgent 提供構建 AI 應用的基礎結構和工具,簡化與大語言模型(LLM)的交互、狀態管理、...
閱讀原文

Rowboat

Rowboat 是開源的低代碼 AI IDE,專注于構建多智能體助手的 MCP(多云平臺)工具。通過可視化界面和 AI 輔助開發功能,幫助用戶快速設計、配置和測試智能體工...
閱讀原文

Qwen2.5-Omni-3B

Qwen2.5-Omni-3B 是阿里巴巴 Qwen 團隊推出的輕量級多模態 AI 模型。是 Qwen2.5-Omni-7B 的精簡版,專為消費級硬件設計,支持文本、音頻、圖像和視頻等多種輸...
閱讀原文

URM

URM(Universal Recommendation Model)是阿里媽媽推出的世界知識大模型,基于知識注入和信息對齊,將LLM的通用知識與電商領域的專業知識相結合,解決傳統LLM...
閱讀原文

ACI.dev

ACI.dev 是開源的基礎設施平臺,專為 AI 智能體設計,提供強大的工具調用支持。集成了 600 多種預構建工具,涵蓋 Gmail、Slack、Notion 等常見應用,支持通過...
閱讀原文

F-Lite

F-Lite是Freepik團隊聯合FAL開源的10B參數的文生圖模型。基于Freepik內部80M有版權的數據集訓練,支持商業用途。F-Lite將T5-XXL作為文本編碼器,基于抽取第17...
閱讀原文

Embodied Reasoner

Embodied Reasoner是浙江大學、中國科學院軟件研究所、阿里巴巴集團等機構推出的新型的具身交互推理模型,基于視覺搜索、推理和行動協同完成復雜任務。模型基...
閱讀原文

風宇

風宇是中國氣象局聯合南昌大學和華為共同推出的全球首個全鏈式空間天氣大模型。模型基于創新的鏈式訓練結構,結合衛星觀測數據與數值模式數據,實現太陽風、...
閱讀原文
13435363738146