AI項(xiàng)目和框架

GameGen-X

GameGen-X是香港科技大學(xué)、中國科學(xué)技術(shù)大學(xué)等機(jī)構(gòu)研究人員推出的擴(kuò)散變換器模型,用在生成和交互控制開放世界游戲視頻。模型能模擬游戲引擎功能,如創(chuàng)新角色...
閱讀原文

OuteTTS

OuteTTS是開源的文本到語音(TTS)項(xiàng)目,基于純語言建模的方法生成語音。OuteTTS項(xiàng)目基于LLaMa架構(gòu),用Oute3-350M-DEV基礎(chǔ)模型,擁有3.5億參數(shù)。OuteTTS具備...
閱讀原文

GTA

GTA(a benchmark for General Tool Agents)是上海交通大學(xué)和上海AI實(shí)驗(yàn)室共同推出的基準(zhǔn)測試,評(píng)估大型語言模型(LLMs)在真實(shí)世界場景中調(diào)用工具的能力。G...
閱讀原文

VQAScore

VQAScore是CMU和Meta聯(lián)合推出的評(píng)估方法,基于視覺問答(VQA)模型衡量由文本提示生成的圖像質(zhì)量。VQAScore用計(jì)算模型對“Does this figure show {text}?”這一...
閱讀原文

AndroidLab

AndroidLab是用在訓(xùn)練和系統(tǒng)評(píng)估Android自主代理的框架,集成文本和圖像模態(tài)操作環(huán)境,統(tǒng)一行動(dòng)空間和可重現(xiàn)基準(zhǔn)測試。AndroidLab支持大型語言模型和多模態(tài)模...
閱讀原文

Recraft V3

Recraft V3是Recraft公司推出的AI文本到圖像生成模型,在Hugging Face的文本到圖像模型排行榜上以1172的ELO評(píng)分榮獲第一。模型具有高質(zhì)量的圖像生成和先進(jìn)的...
閱讀原文

Magentic-One

Magentic-One 是微軟推出的通用多智能體系統(tǒng),解決跨領(lǐng)域的復(fù)雜網(wǎng)絡(luò)和文件任務(wù)。系統(tǒng)基于多智能體架構(gòu),由Orchestrator智能體領(lǐng)導(dǎo),協(xié)調(diào)WebSurfer、FileSurfe...
閱讀原文

X-Portrait 2

X-Portrait 2是字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)推出的單圖視頻驅(qū)動(dòng)技術(shù),基于一張靜態(tài)照片和一段驅(qū)動(dòng)視頻生成高質(zhì)量、電影級(jí)視頻。X-Portrait 2保留原圖身份特征,準(zhǔn)確...
閱讀原文

Ichigo

Ichigo是開源的多模態(tài)AI語音助手,采用混合模態(tài)模型,能實(shí)時(shí)處理語音和文本的交織序列。基于將語音直接量化為離散令牌,用統(tǒng)一的變換器架構(gòu)同時(shí)處理語音和文...
閱讀原文

CogSound

CogSound是智譜AI最新推出的音效模型,能為無聲視頻增添動(dòng)人的音效。 基于GLM-4V的視頻理解能力,CogSound能精準(zhǔn)識(shí)別理解視頻背后的語義和情感,為無聲視頻添...
閱讀原文

AgentSquare

AgentSquare是清華大學(xué)團(tuán)隊(duì)推出自動(dòng)搜索和優(yōu)化大型語言模型(LLM)代理的框架。基于標(biāo)準(zhǔn)化的模塊接口抽象,實(shí)現(xiàn)AI智能體的高速自我演化和自適應(yīng)演進(jìn)。框架包...
閱讀原文

Fashion-VDM

Fashion-VDM是谷歌和華盛頓大學(xué)共同推出的基于視頻擴(kuò)散模型(VDM)的虛擬試穿技術(shù)。能在給定服裝圖像和人物視頻的情況下,生成人物穿著指定服裝的高質(zhì)量試穿...
閱讀原文

olly.bot

Olly.bot是集成于iMessage和SMS的個(gè)人AI助手,基于OpenAI大模型,提供網(wǎng)絡(luò)搜索、文檔分析、圖片生成等功能。Olly.bot無需下載、注冊,不收集用戶身份信息,保...
閱讀原文

AdaCache

AdaCache(Adaptive Caching)是Meta推出的開源技術(shù),能加速AI視頻生成過程。AdaCache自適應(yīng)緩存機(jī)制優(yōu)化計(jì)算資源分配,根據(jù)不同視頻內(nèi)容的復(fù)雜度動(dòng)態(tài)調(diào)整計(jì)...
閱讀原文

CogVideoX v1.5

CogVideoX v1.5是智譜最新開源的AI視頻生成模型。模型包含CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V兩個(gè)版本,5B 系列模型支持生成5至10秒、768P分辨率、16...
閱讀原文
1151152153154