AI項(xiàng)目和框架

Liquid

Liquid是華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)聯(lián)合推出的極簡(jiǎn)統(tǒng)一多模態(tài)生成框架。基于VQGAN將圖像編碼為離散的視覺token,與文本token共享同一詞匯空間,讓大型...
閱讀原文

X-Dancer

X-Dancer 是字節(jié)跳動(dòng)聯(lián)合加州大學(xué)圣地亞哥分校和南加州大學(xué)的研究人員共同推出的音樂驅(qū)動(dòng)的人像舞蹈視頻生成框架,支持從單張靜態(tài)圖像生成多樣化且逼真的全身...
閱讀原文

AVD2

AVD2(Accident Video Diffusion for Accident Video Description)是清華大學(xué)聯(lián)合香港科技大學(xué)、吉林大學(xué)、南京理工大學(xué)、北京理工大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)推出...
閱讀原文

Kiss3DGen

Kiss3DGen是創(chuàng)新的3D資產(chǎn)生成框架,通過重新基于預(yù)訓(xùn)練的2D圖像擴(kuò)散模型來高效生成、編輯和增強(qiáng)3D對(duì)象。核心在于生成“3D Bundle Image”,將多視圖圖像及對(duì)應(yīng)...
閱讀原文

Archon

Archon 是專注于構(gòu)建和優(yōu)化 AI 智能體的開源項(xiàng)目。通過自主生成代碼和優(yōu)化智能體性能,展示了現(xiàn)代 AI 開發(fā)的核心理念。Archon 的核心功能包括智能體的快速構(gòu)...
閱讀原文

PodAgent

PodAgent 是香港中文大學(xué)、微軟和小紅書聯(lián)合推出的播客生成框架。基于模擬真實(shí)的脫口秀場(chǎng)景,用多智能體協(xié)作系統(tǒng)(包括主持人、嘉賓和編劇)自動(dòng)生成豐富且結(jié)...
閱讀原文

Chat2SVG

Chat2SVG 是創(chuàng)新的文本到矢量圖形(SVG)生成框架,通過結(jié)合大型語(yǔ)言模型(LLMs)和圖像擴(kuò)散模型,實(shí)現(xiàn)高質(zhì)量 SVG 圖形的自動(dòng)化創(chuàng)作。通過多階段流程,首先基...
閱讀原文

QwQ-32B

QwQ-32B 是阿里巴巴開源的新型推理模型,參數(shù)量為 320 億。基于大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,在數(shù)學(xué)推理、編程等任務(wù)上表現(xiàn)出色,性能比肩 6710 億參數(shù)的 DeepS...
閱讀原文

Light-R1

Light-R1是360智腦開源的AI模型,專注于數(shù)學(xué)領(lǐng)域的長(zhǎng)思維鏈推理,具體為 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7萬(wàn)條數(shù)學(xué)數(shù)據(jù)和兩階段課程學(xué)習(xí)(SF...
閱讀原文

SpatialVLA

SpatialVLA 是上海 AI Lab、中國(guó)電信人工智能研究院和上海科技大學(xué)等機(jī)構(gòu)共同推出的新型空間具身通用操作模型,基于百萬(wàn)真實(shí)數(shù)據(jù)預(yù)訓(xùn)練,為機(jī)器人賦予通用的3...
閱讀原文

TheoremExplainAgent

TheoremExplainAgent(TEA)是滑鐵盧大學(xué)、Votee AI等機(jī)構(gòu)開源的多模態(tài)代理系統(tǒng),基于生成長(zhǎng)篇?jiǎng)赢嬕曨l幫助人們更好地理解數(shù)學(xué)和科學(xué)定理。TheoremExplainAge...
閱讀原文

Aya Vision

Aya Vision 是 Cohere 推出的多模態(tài)、多語(yǔ)言的視覺模型,提升全球范圍內(nèi)的多語(yǔ)言和多模態(tài)通信能力。支持 23 種語(yǔ)言,能執(zhí)行圖像描述生成、視覺問答、文本翻譯...
閱讀原文

BGE-VL

BGE-VL 是北京智源研究院聯(lián)合多所高校推出的多模態(tài)向量模型,基于大規(guī)模合成數(shù)據(jù) MegaPairs 訓(xùn)練而成。BGE-VL專注于多模態(tài)檢索任務(wù),如圖文檢索和組合圖像檢...
閱讀原文

混元圖生視頻

混元圖生視頻是騰訊混元推出的開源圖生視頻模型,用戶可以通過上傳一張圖片進(jìn)行簡(jiǎn)短描述,讓圖片動(dòng)起來生成5秒的短視頻。模型支持對(duì)口型、動(dòng)作驅(qū)動(dòng)和背景音效...
閱讀原文

Granite 3.2

Granite 3.2 是IBM開源的多模態(tài)AI模型系列,具備強(qiáng)大的推理、視覺理解和預(yù)測(cè)能力。Granite 3.2包含多個(gè)版本, Granite 3.2 Instruct 提供實(shí)驗(yàn)性鏈?zhǔn)酵评砟芰?..
閱讀原文
16465666768155