AI項目和框架

文心 5.0 Preview

文心 5.0 Preview (ERNIE-5.0-Preview)是百度最新推出的人工智能大語言模型。模型在 LMArena 文本競技場(Text Arena)排名中位居全球并列第二、國內第一,...
閱讀原文

Maya1

Maya1 是 Maya Research 團隊推出的開源語音模型,專為生成富有情感的語音而設計。模型通過自然語言描述來設計聲音,支持 20 多種情緒表達,如大笑、哭泣、嘆...
閱讀原文

Step-Audio-EditX

Step-Audio-EditX 是階躍星辰開源的全球首個 LLM 級音頻編輯大模型,主打“情感、說話風格、副語言”三軸細粒度迭代控制,可把憤怒、開心、悲傷等情緒強度任意...
閱讀原文

Kimi-k2 Thinking

Kimi-k2 Thinking 是月之暗面推出的具備通用 Agentic 能力和深度推理能力的人工智能模型。模型能進行多輪工具調用,支持長達 256k 的上下文處理,適合復雜任...
閱讀原文

Open-o3 Video

Open-o3 Video 是北京大學和字節跳動聯合開發的開源視頻推理模型,通過整合顯式的時空證據(關鍵時間戳和邊界框)來實現精準的視頻推理。通過精心策劃的 STGR...
閱讀原文

OmniVinci

OmniVinci是NVIDIA推出的全模態大語言模型,專門處理視覺、聽覺、語言和推理的多模態任務。通過獨特的OmnialignNet技術實現跨模態語義對齊,Temporal Embeddi...
閱讀原文

UNO-Bench

UNO-Bench是美團LongCat團隊推出的全模態大模型評測基準。UNO-Bench針對現有評測體系的不足,通過高質量、多樣化的數據構建,精準衡量模型的單模態與全模態能...
閱讀原文

Kosmos

Kosmos 是新一代 AI 科學家,由 FutureHouse 推出的自動化科研系統 Robin 升級而來。Kosmos采用結構化世界模型,能高效整合海量信息,單次運行可解析 1500 篇...
閱讀原文

UniWorld V2

UniWorld V2是兔展智能和北京大學UniWorld團隊推出的新一代圖像編輯模型。采用創新的UniWorld-R1訓練框架,首次將強化學習策略優化應用于圖像編輯,通過Diffu...
閱讀原文

訊飛星火X1.5

訊飛星火X1.5 是科大訊飛推出的基于全國產算力平臺的深度推理大模型。模型率先攻克 MoE 模型全鏈路訓練效率問題,端到端性能達到國際競品效率的 93% 以上。模...
閱讀原文

Handy

Handy 是開源的語音轉文字桌面應用,完全離線運行,支持 Windows、macOS 和 Linux 系統。由 Rust 和 React/TypeScript 構建,界面簡潔,操作便捷。用戶通過快...
閱讀原文

FG-CLIP 2

FG-CLIP 2是360推出的開源雙語細粒度視覺語言對齊模型,專為解決視覺與語言的精準對齊問題而設計。在視覺語言理解領域取得了重大突破,尤其在中英文雙語任務...
閱讀原文

NavFoM

NavFoM(Navigation Foundation Model)是銀河通用聯合北京大學、阿德萊德大學、浙江大學等團隊發布的全球首個跨本體全域環視導航基座大模型。具備全場景支持...
閱讀原文

SAIL-Embedding

SAIL-Embedding是字節跳動抖音SAIL團隊和香港中文大學MMLab聯合開發的全模態(omni-modal)嵌入基礎模型。解決多模態信息檢索和推薦系統中的實際應用問題,通...
閱讀原文

Open AgentKit

Open AgentKit(OAK)是零一萬物開源的AI Agent開發平臺,能為開發者提供開放、通用的Agent開發解決方案。平臺受OpenAI AgentKit啟發,支持多種模型和生態系...
閱讀原文
1234154