AI項(xiàng)目和框架
LongCat-Flash-Thinking
LongCat-Flash-Thinking 是美團(tuán)團(tuán)隊(duì)推出的擁有 5600 億參數(shù)的大型推理模型,基于專家混合(MoE)架構(gòu),支持根據(jù)需求動(dòng)態(tài)激活 186 億到 313 億參數(shù),兼顧計(jì)算...
Granite-Docling-258M – IBM推出的輕量級(jí)視覺(jué)語(yǔ)言模型
Granite-Docling-258M 是 IBM 推出的輕量級(jí)視覺(jué)語(yǔ)言模型,專為高效文檔轉(zhuǎn)換設(shè)計(jì)。模型能將文檔轉(zhuǎn)換為機(jī)器可讀格式,同時(shí)完整保留布局、表格、公式等元素。
LSP(Language Self-Play)
LSP(Language Self-Play)是Meta提出的一種強(qiáng)化學(xué)習(xí)方法,解決大型語(yǔ)言模型對(duì)大量高質(zhì)量訓(xùn)練數(shù)據(jù)的依賴問(wèn)題。LSP的核心思想是利用自我博弈的方式,讓同一模...
TrafficVLM
TrafficVLM是高德導(dǎo)航推出的基于大模型技術(shù)的交通視覺(jué)語(yǔ)言模型,通過(guò)交通孿生還原能力,將海量實(shí)時(shí)交通數(shù)據(jù)轉(zhuǎn)化為動(dòng)態(tài)孿生視頻流,構(gòu)建出與現(xiàn)實(shí)世界同步的“數(shù)...
DeepSeek-R1-Safe
DeepSeek-R1-Safe 是浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院和華為合作推出的基于DeepSeek衍生的安全大模型。模型基于華為昇騰芯片和 MindSpeedLLM 框架,通過(guò)構(gòu)建安全語(yǔ)料...
Xiaomi-MiMo-Audio
Xiaomi-MiMo-Audio是小米開源的首個(gè)原生端到端語(yǔ)音大模型。模型基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)和上億小時(shí)訓(xùn)練數(shù)據(jù),首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)了基于 In-Context Learning(ICL...
Lucy Edit Dev
Lucy Edit Dev 是 Decart AI 團(tuán)隊(duì)開源的基于文本指令的視頻編輯模型。能根據(jù)簡(jiǎn)單的文本提示對(duì)視頻進(jìn)行多種編輯操作,如更改服裝、替換角色、插入對(duì)象和轉(zhuǎn)換場(chǎng)...
Wan2.2-Animate
Wan2.2-Animate是阿里通義團(tuán)隊(duì)推出的動(dòng)作生成模型,模型同時(shí)支持動(dòng)作模仿和角色扮演兩種模式,能基于表演者的視頻,精確復(fù)制面部表情和動(dòng)作,生成高度逼真的...