AI項目和框架

HunyuanCustom

HunyuanCustom是騰訊混元團隊推出的多模態(tài)驅(qū)動的定制化視頻生成框架。HunyuanCustom支持圖像、音頻、視頻和文本等多種輸入條件,支持生成具有特定主體和場景...
閱讀原文

ICEdit

ICEdit(In-Context Edit)是浙江大學(xué)和哈佛大學(xué)推出的指令式圖像編輯框架。基于大規(guī)模擴散變換器(Diffusion Transformer)的強大生成能力和上下文感知能力...
閱讀原文

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 語言模型家族中最小的模型的預(yù)覽版本。Granite 4.0 Tiny Preview用極高的計算效率和緊湊的模型結(jié)構(gòu)為特...
閱讀原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升級版多模態(tài)AI模型,具體版本號為 Gemini 2.5 Pro Preview 05-06。模型在編程能力上取得重大突破...
閱讀原文

VPP

VPP(Video Prediction Policy)是清華大學(xué)和星動紀元推出的首個AIGC機器人大模型。基于預(yù)訓(xùn)練的視頻擴散模型,學(xué)習(xí)互聯(lián)網(wǎng)上的大量視頻數(shù)據(jù),直接預(yù)測未來場...
閱讀原文

Amazon Nova Premier

Amazon Nova Premier 是亞馬遜推出功能最強大的多模態(tài) AI 模型,能處理文本、圖像和視頻輸入(不包括音頻),擅長處理需要深度理解上下文、多步驟規(guī)劃以及跨...
閱讀原文

D-DiT

D-DiT(Dual Diffusion Transformer)是卡內(nèi)基梅隆大學(xué)、耶魯大學(xué)和字節(jié)跳動Seed實驗室推出的多模態(tài)擴散模型,能統(tǒng)一圖像生成和理解任務(wù)。模型結(jié)合連續(xù)圖像擴...
閱讀原文

NoteLLM

NoteLLM 是小紅書推出的針對筆記推薦的多模態(tài)大型語言模型框架。NoteLLM 基于生成筆記的壓縮嵌入和自動生成標簽類別,用大型語言模型(LLM)的強大語義理解能...
閱讀原文

kimi-thinking-preview

kimi-thinking-preview 是月之暗面推出的多模態(tài)思考模型,具備深度推理能力,擅長解決復(fù)雜問題,如代碼、數(shù)學(xué)和工作難題。模型基于 reasoning_content 字段展...
閱讀原文

3DV-TON

3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴達摩院、湖畔實驗室和浙江大學(xué)聯(lián)合推出的基于擴散模型的視頻虛擬試...
閱讀原文

ACE-Step

ACE-Step 是 ACE Studio 和 StepFun 聯(lián)合推出的開源音樂生成基礎(chǔ)模型,基于創(chuàng)新的架構(gòu)設(shè)計實現(xiàn)高效、連貫且可控的音樂創(chuàng)作。ACE-Step結(jié)合擴散模型、深度壓縮...
閱讀原文

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的專為推理密集型檢索任務(wù)設(shè)計的模型。基于 LLaMA3.1-8B 訓(xùn)練,采用雙編碼器架構(gòu),將查詢和文檔分別編碼為嵌入向量,通過余弦相...
閱讀原文

Omni Reference

Omni Reference 是 Midjourney 推出的全能參考功能,支持用戶將特定的人物、物體或場景從參考圖像中嵌入到生成的圖像中。Omni Reference 適用于Midjourney V7...
閱讀原文

Cobra

Cobra(Efficient Line Art COlorization with BRoAder References)是清華大學(xué)、香港中文大學(xué)和騰訊ARC實驗室推出的漫畫線稿上色框架,專為高精度、高效率和...
閱讀原文

KeySync

KeySync 是帝國理工學(xué)院和弗羅茨瓦夫大學(xué)推出的用在高分辨率口型同步框架,支持將輸入音頻與視頻中的口型動作對齊。KeySync 基于兩階段框架實現(xiàn),首先生成關(guān)...
閱讀原文
13334353637146