AI項目和框架

Seed1.6

Seed1.6是字節(jié)跳動Seed團隊推出的通用模型系列,融合多模態(tài)能力,支持256K長上下文深度推理。Seed1.6沿用Seed1.5稀疏MoE探索成果,經(jīng)純文本預訓練、多模態(tài)混...
閱讀原文

AnimaTensor

AnimaTensor是CagliostroLab團隊和TensorArt共同推出的二次元圖像生成模型?;趧?chuàng)新的V-Prediction技術(shù),用預測圖像生成過程中的“速度”優(yōu)化噪聲調(diào)度和采樣策...
閱讀原文

Gemini Robotics On-Device

Gemini Robotics On-Device是谷歌DeepMind推出的首個可在機器人本地運行的視覺-語言-動作(VLA)模型。模型具備強大的離線操作能力,能遵循自然語言指令完成...
閱讀原文

OmniAvatar

OmniAvatar是浙江大學和阿里巴巴集團共同推出的音頻驅(qū)動全身視頻生成模型。模型根據(jù)輸入的音頻和文本提示,生成自然、逼真的全身動畫視頻,人物動作與音頻完...
閱讀原文

ImmerseGen

ImmerseGen是字節(jié)跳動的PICO團隊和浙江大學聯(lián)合推出的創(chuàng)新3D世界生成框架??蚣芨鶕?jù)用戶輸入的文字提示,基于Agent引導的資產(chǎn)設(shè)計和排列,生成帶有alpha紋理...
閱讀原文

Mu

Mu是微軟推出的小參數(shù)語言模型,僅3.3億參數(shù),支持在 NPU 和邊緣設(shè)備上高效運行。模型基于編碼器解碼器架構(gòu),基于硬件感知優(yōu)化、模型量化及特定任務(wù)微調(diào),實...
閱讀原文

Hunyuan-GameCraft

Hunyuan-GameCraft 是騰訊 Hunyuan 團隊和華中科技大學共同推出的高動態(tài)交互式游戲視頻生成框架?;趯㈡I盤和鼠標輸入統(tǒng)一到共享的相機表示空間,實現(xiàn)精細的...
閱讀原文

Confucius3-Math

Confucius3-Math是網(wǎng)易有道開源的“子曰3”系列大模型中的數(shù)學模型,是國內(nèi)首個專注于數(shù)學教育的開源推理模型。具有140億參數(shù),專為K-12數(shù)學教育場景優(yōu)化,可在...
閱讀原文

Lingshu

Lingshu是阿里巴巴達摩院推出的專注于醫(yī)學領(lǐng)域的多模態(tài)大型語言模型。模型支持超過12種醫(yī)學成像模態(tài),包括X光、CT掃描、MRI等,在多模態(tài)問答、文本問答及醫(yī)學...
閱讀原文

Ring-lite

Ring-lite是螞蟻技術(shù)AntTech團隊推出的基于MoE架構(gòu)的輕量級推理模型。模型用Ling-lite-1.5為基礎(chǔ),基于獨創(chuàng)的C3PO強化學習訓練方法,在多項推理Benchmark上達...
閱讀原文

PosterCraft

PosterCraft是香港科技大學(廣州)和美團等機構(gòu)推出的用在生成高質(zhì)量美學海報的統(tǒng)一框架??蚣苻饤壞K化設(shè)計流程和固定的預定義布局,支持模型自由探索連貫...
閱讀原文

RAG-Anything

RAG-Anything是香港大學數(shù)據(jù)智能實驗室推出的開源多模態(tài)RAG系統(tǒng)。系統(tǒng)支持處理包含文本、圖像、表格和公式的復雜文檔,提供從文檔攝取到智能查詢的端到端解決...
閱讀原文

Dive3D

Dive3D是北京大學和小紅書公司合作推出的文本到3D生成框架??蚣芑诜謹?shù)的匹配(Score Implicit Matching,SIM)損失替代傳統(tǒng)的KL散度目標,有效避免模式坍...
閱讀原文

PreenCut

PreenCut是開源的AI視頻剪輯工具,基于WhisperX實現(xiàn)高精度語音轉(zhuǎn)錄,結(jié)合DeepSeek和豆包API提供語義化搜索和智能剪輯功能。工具具備自動語音轉(zhuǎn)錄、AI智能分段...
閱讀原文

元智醫(yī)療大模型

元智醫(yī)療大模型是聯(lián)影智能推出的面向醫(yī)療領(lǐng)域的多模態(tài)人工智能模型,通過融合文本、影像、視覺、語音等多種模態(tài)數(shù)據(jù),為醫(yī)療場景提供深度智能化解決方案。
閱讀原文
12728293031155