AI項(xiàng)目和框架
Gemini Robotics On-Device
Gemini Robotics On-Device是谷歌DeepMind推出的首個(gè)可在機(jī)器人本地運(yùn)行的視覺-語言-動作(VLA)模型。模型具備強(qiáng)大的離線操作能力,能遵循自然語言指令完成...
OmniAvatar
OmniAvatar是浙江大學(xué)和阿里巴巴集團(tuán)共同推出的音頻驅(qū)動全身視頻生成模型。模型根據(jù)輸入的音頻和文本提示,生成自然、逼真的全身動畫視頻,人物動作與音頻完...
ImmerseGen
ImmerseGen是字節(jié)跳動的PICO團(tuán)隊(duì)和浙江大學(xué)聯(lián)合推出的創(chuàng)新3D世界生成框架。框架根據(jù)用戶輸入的文字提示,基于Agent引導(dǎo)的資產(chǎn)設(shè)計(jì)和排列,生成帶有alpha紋理...
Hunyuan-GameCraft
Hunyuan-GameCraft 是騰訊 Hunyuan 團(tuán)隊(duì)和華中科技大學(xué)共同推出的高動態(tài)交互式游戲視頻生成框架。基于將鍵盤和鼠標(biāo)輸入統(tǒng)一到共享的相機(jī)表示空間,實(shí)現(xiàn)精細(xì)的...
Confucius3-Math
Confucius3-Math是網(wǎng)易有道開源的“子曰3”系列大模型中的數(shù)學(xué)模型,是國內(nèi)首個(gè)專注于數(shù)學(xué)教育的開源推理模型。具有140億參數(shù),專為K-12數(shù)學(xué)教育場景優(yōu)化,可在...
PosterCraft
PosterCraft是香港科技大學(xué)(廣州)和美團(tuán)等機(jī)構(gòu)推出的用在生成高質(zhì)量美學(xué)海報(bào)的統(tǒng)一框架。框架摒棄模塊化設(shè)計(jì)流程和固定的預(yù)定義布局,支持模型自由探索連貫...
RAG-Anything
RAG-Anything是香港大學(xué)數(shù)據(jù)智能實(shí)驗(yàn)室推出的開源多模態(tài)RAG系統(tǒng)。系統(tǒng)支持處理包含文本、圖像、表格和公式的復(fù)雜文檔,提供從文檔攝取到智能查詢的端到端解決...
元智醫(yī)療大模型
元智醫(yī)療大模型是聯(lián)影智能推出的面向醫(yī)療領(lǐng)域的多模態(tài)人工智能模型,通過融合文本、影像、視覺、語音等多種模態(tài)數(shù)據(jù),為醫(yī)療場景提供深度智能化解決方案。