AI項目和框架
Step-R1-V-Mini
Step-R1-V-Mini 是階躍星辰最新推出的多模態推理模型。支持圖文輸入和文字輸出,具備良好的指令遵循和通用能力,能高精度感知圖像完成復雜推理任務。模型在視...
SeniorTalk
SeniorTalk 是智源研究院聯合南開大學計算機學院人類語言技術實驗室(HLT Lab)推出的全球首個中文超高齡老年人對話語音數據集。數據集包含202位75歲及以上超...
ChildMandarin
ChildMandarin 是智源研究院聯合南開大學計算機學院人類語言技術實驗室(HLT Lab)共同推出的,針對3-5歲兒童的普通話語音數據集。數據集包含41.25小時的語音...
SkyReels-A2
SkyReels-A2是昆侖萬維推出的可控視頻生成框架,支持根據文本提示將任意視覺元素(如人物、物體、背景)組合成合成視頻,嚴格保持與每個元素的參考圖像的一致...
Seedream 3.0
Seedream 3.0是字節跳動豆包大模型團隊推出的AI繪圖模型,在中文文字生成和設計感方面表現出色,解決小字生成的穩定性問題,能精準生成復雜的中文內容,提供...
Quasar Alpha
Quasar Alpha 是 OpenRouter 發布的預發布版 AI 模型。擁有 100 萬 token 的超大上下文窗口,可處理超長文本和復雜文檔。代碼生成能力出色,生成速度快,延遲...
OmniTalker
OmniTalker 是阿里巴巴發布的實時文本驅動的說話頭像生成技術,能同時處理文本、圖像、音頻和視頻等多種模態輸入,以流式方式生成自然語音響應。核心架構為 T...
DeepSeek-GRM
DeepSeek-GRM是DeepSeek和清華大學研究者共同提出的通用獎勵模型(Generalist Reward Modeling)。通過點式生成式獎勵建模(Pointwise Generative Reward Mod...
OlympicArena
OlympicArena是上海交通大學、上海AI Lab、蘇州大學和上海交通大學生成式人工智能實驗室(GAIR Lab)聯合推出的多學科認知推理基準測試框架。OlympicArena包...
BabelDOC
BabelDOC 是開源的智能 PDF 翻譯工具,專為科學論文翻譯設計。能在原文旁生成翻譯文本,形成雙語對照,無需切換窗口,方便閱讀。能完整保留數學公式、表格和...
DreamActor-M1
DreamActor-M1是字節跳動推出的先進AI圖像動畫框架,能將靜態人物照片轉化為生動的動畫視頻。采用混合引導機制,結合隱式面部表示、3D頭部球體和3D身體骨架等...
Mini DALL·E 3
Mini DALL·E 3 是北京理工大學、上海AI Lab、清華大學和香港中文大學聯合推出的交互式文本到圖像(iT2I)框架。基于自然語言與用戶進行多輪對話,實現高質量...