AI項(xiàng)目和框架

LongCat-Flash-Thinking

LongCat-Flash-Thinking 是美團(tuán)團(tuán)隊(duì)推出的擁有 5600 億參數(shù)的大型推理模型,基于專家混合(MoE)架構(gòu),支持根據(jù)需求動(dòng)態(tài)激活 186 億到 313 億參數(shù),兼顧計(jì)算...
閱讀原文

Granite-Docling-258M – IBM推出的輕量級(jí)視覺(jué)語(yǔ)言模型

Granite-Docling-258M 是 IBM 推出的輕量級(jí)視覺(jué)語(yǔ)言模型,專為高效文檔轉(zhuǎn)換設(shè)計(jì)。模型能將文檔轉(zhuǎn)換為機(jī)器可讀格式,同時(shí)完整保留布局、表格、公式等元素。
閱讀原文

LSP(Language Self-Play)

LSP(Language Self-Play)是Meta提出的一種強(qiáng)化學(xué)習(xí)方法,解決大型語(yǔ)言模型對(duì)大量高質(zhì)量訓(xùn)練數(shù)據(jù)的依賴問(wèn)題。LSP的核心思想是利用自我博弈的方式,讓同一模...
閱讀原文

TrafficVLM

TrafficVLM是高德導(dǎo)航推出的基于大模型技術(shù)的交通視覺(jué)語(yǔ)言模型,通過(guò)交通孿生還原能力,將海量實(shí)時(shí)交通數(shù)據(jù)轉(zhuǎn)化為動(dòng)態(tài)孿生視頻流,構(gòu)建出與現(xiàn)實(shí)世界同步的“數(shù)...
閱讀原文

DeepSeek-R1-Safe

DeepSeek-R1-Safe 是浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院和華為合作推出的基于DeepSeek衍生的安全大模型。模型基于華為昇騰芯片和 MindSpeedLLM 框架,通過(guò)構(gòu)建安全語(yǔ)料...
閱讀原文

Kronos

Kronos 是首個(gè)面向金融市場(chǎng)的 K 線圖基礎(chǔ)模型,由清華大學(xué)與微軟亞洲研究院聯(lián)合開源。通過(guò)分析股票、加密貨幣等資產(chǎn)的 K 線數(shù)據(jù),包括開盤價(jià)、最高價(jià)、最低價(jià)...
閱讀原文

OneSearch

OneSearch 是快手推出的電商搜索端到端生成式框架,優(yōu)化傳統(tǒng)電商搜索的級(jí)聯(lián)式架構(gòu),提升搜索精準(zhǔn)度和用戶體驗(yàn)。三大創(chuàng)新點(diǎn)包括:關(guān)鍵詞增強(qiáng)層次量化編碼(KHQ...
閱讀原文

Codexia

Codexia是強(qiáng)大的跨平臺(tái)AI編碼桌面應(yīng)用程序,支持為OpenAI Codex CLI提供圖形界面和工具集,增強(qiáng)開發(fā)體驗(yàn)。
閱讀原文

Lego-Edit

Lego-Edit 是小米開源的基于指令的圖像編輯框架,通過(guò)多模態(tài)大語(yǔ)言模型(MLLM)的泛化能力,實(shí)現(xiàn)對(duì)圖像的靈活編輯。采用模型級(jí)工具包,包含多種高效訓(xùn)練的模...
閱讀原文

FastMTP

FastMTP 是騰訊自研的大語(yǔ)言模型(LLM)推理加速技術(shù),通過(guò)優(yōu)化多標(biāo)記預(yù)測(cè)(MTP)技術(shù),用共享權(quán)重的單 MTP 頭替代傳統(tǒng)多獨(dú)立模塊,結(jié)合語(yǔ)言感知詞匯壓縮和自...
閱讀原文

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio是小米開源的首個(gè)原生端到端語(yǔ)音大模型。模型基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)和上億小時(shí)訓(xùn)練數(shù)據(jù),首次在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)了基于 In-Context Learning(ICL...
閱讀原文

Lucy Edit Dev

Lucy Edit Dev 是 Decart AI 團(tuán)隊(duì)開源的基于文本指令的視頻編輯模型。能根據(jù)簡(jiǎn)單的文本提示對(duì)視頻進(jìn)行多種編輯操作,如更改服裝、替換角色、插入對(duì)象和轉(zhuǎn)換場(chǎng)...
閱讀原文

Wan2.2-Animate

Wan2.2-Animate是阿里通義團(tuán)隊(duì)推出的動(dòng)作生成模型,模型同時(shí)支持動(dòng)作模仿和角色扮演兩種模式,能基于表演者的視頻,精確復(fù)制面部表情和動(dòng)作,生成高度逼真的...
閱讀原文

Ling-V2

Ling-V2 是螞蟻百靈團(tuán)隊(duì)推出的基于 MoE 架構(gòu)的大型語(yǔ)言模型家族,首個(gè)版本 Ling-mini-2.0 擁有 160 億總參數(shù),每個(gè)輸入標(biāo)記僅激活 14 億參數(shù)。
閱讀原文

VoxCPM

VoxCPM 是面壁智能與清華大學(xué)深圳國(guó)際研究生院聯(lián)合開發(fā)的 0.5B 參數(shù)語(yǔ)音生成模型。在語(yǔ)音合成的自然度、音色相似度及韻律表現(xiàn)力方面達(dá)到了業(yè)界頂尖水平。VoxC...
閱讀原文
1234145