AI項(xiàng)目和框架

Gemini Robotics On-Device

Gemini Robotics On-Device是谷歌DeepMind推出的首個(gè)可在機(jī)器人本地運(yùn)行的視覺-語言-動作(VLA)模型。模型具備強(qiáng)大的離線操作能力,能遵循自然語言指令完成...
閱讀原文

OmniAvatar

OmniAvatar是浙江大學(xué)和阿里巴巴集團(tuán)共同推出的音頻驅(qū)動全身視頻生成模型。模型根據(jù)輸入的音頻和文本提示,生成自然、逼真的全身動畫視頻,人物動作與音頻完...
閱讀原文

ImmerseGen

ImmerseGen是字節(jié)跳動的PICO團(tuán)隊(duì)和浙江大學(xué)聯(lián)合推出的創(chuàng)新3D世界生成框架。框架根據(jù)用戶輸入的文字提示,基于Agent引導(dǎo)的資產(chǎn)設(shè)計(jì)和排列,生成帶有alpha紋理...
閱讀原文

Mu

Mu是微軟推出的小參數(shù)語言模型,僅3.3億參數(shù),支持在 NPU 和邊緣設(shè)備上高效運(yùn)行。模型基于編碼器解碼器架構(gòu),基于硬件感知優(yōu)化、模型量化及特定任務(wù)微調(diào),實(shí)...
閱讀原文

Hunyuan-GameCraft

Hunyuan-GameCraft 是騰訊 Hunyuan 團(tuán)隊(duì)和華中科技大學(xué)共同推出的高動態(tài)交互式游戲視頻生成框架。基于將鍵盤和鼠標(biāo)輸入統(tǒng)一到共享的相機(jī)表示空間,實(shí)現(xiàn)精細(xì)的...
閱讀原文

Confucius3-Math

Confucius3-Math是網(wǎng)易有道開源的“子曰3”系列大模型中的數(shù)學(xué)模型,是國內(nèi)首個(gè)專注于數(shù)學(xué)教育的開源推理模型。具有140億參數(shù),專為K-12數(shù)學(xué)教育場景優(yōu)化,可在...
閱讀原文

Lingshu

Lingshu是阿里巴巴達(dá)摩院推出的專注于醫(yī)學(xué)領(lǐng)域的多模態(tài)大型語言模型。模型支持超過12種醫(yī)學(xué)成像模態(tài),包括X光、CT掃描、MRI等,在多模態(tài)問答、文本問答及醫(yī)學(xué)...
閱讀原文

Ring-lite

Ring-lite是螞蟻技術(shù)AntTech團(tuán)隊(duì)推出的基于MoE架構(gòu)的輕量級推理模型。模型用Ling-lite-1.5為基礎(chǔ),基于獨(dú)創(chuàng)的C3PO強(qiáng)化學(xué)習(xí)訓(xùn)練方法,在多項(xiàng)推理Benchmark上達(dá)...
閱讀原文

PosterCraft

PosterCraft是香港科技大學(xué)(廣州)和美團(tuán)等機(jī)構(gòu)推出的用在生成高質(zhì)量美學(xué)海報(bào)的統(tǒng)一框架。框架摒棄模塊化設(shè)計(jì)流程和固定的預(yù)定義布局,支持模型自由探索連貫...
閱讀原文

RAG-Anything

RAG-Anything是香港大學(xué)數(shù)據(jù)智能實(shí)驗(yàn)室推出的開源多模態(tài)RAG系統(tǒng)。系統(tǒng)支持處理包含文本、圖像、表格和公式的復(fù)雜文檔,提供從文檔攝取到智能查詢的端到端解決...
閱讀原文

Dive3D

Dive3D是北京大學(xué)和小紅書公司合作推出的文本到3D生成框架。框架基于分?jǐn)?shù)的匹配(Score Implicit Matching,SIM)損失替代傳統(tǒng)的KL散度目標(biāo),有效避免模式坍...
閱讀原文

PreenCut

PreenCut是開源的AI視頻剪輯工具,基于WhisperX實(shí)現(xiàn)高精度語音轉(zhuǎn)錄,結(jié)合DeepSeek和豆包API提供語義化搜索和智能剪輯功能。工具具備自動語音轉(zhuǎn)錄、AI智能分段...
閱讀原文

元智醫(yī)療大模型

元智醫(yī)療大模型是聯(lián)影智能推出的面向醫(yī)療領(lǐng)域的多模態(tài)人工智能模型,通過融合文本、影像、視覺、語音等多種模態(tài)數(shù)據(jù),為醫(yī)療場景提供深度智能化解決方案。
閱讀原文

MindOmni

MindOmni 是騰訊 ARC Lab 聯(lián)合清華大學(xué)深圳國際研究生院、香港中文大學(xué)和香港大學(xué)等推出的多模態(tài)大型語言模型,基于強(qiáng)化學(xué)習(xí)算法(RGPO)顯著提升視覺語言模...
閱讀原文

盤古大模型 5.5

盤古大模型5.5是華為在開發(fā)者大會(HDC 2025)上發(fā)布的最新一代人工智能大模型。模型強(qiáng)調(diào)“不作詩,只做事”,專注于解決實(shí)際產(chǎn)業(yè)問題,推動千行百業(yè)的智能化升...
閱讀原文
11819202122146