AI項目和框架

OuteTTS

OuteTTS是開源的文本到語音(TTS)項目,基于純語言建模的方法生成語音。OuteTTS項目基于LLaMa架構,用Oute3-350M-DEV基礎模型,擁有3.5億參數。OuteTTS具備...
閱讀原文

GTA

GTA(a benchmark for General Tool Agents)是上海交通大學和上海AI實驗室共同推出的基準測試,評估大型語言模型(LLMs)在真實世界場景中調用工具的能力。G...
閱讀原文

VQAScore

VQAScore是CMU和Meta聯合推出的評估方法,基于視覺問答(VQA)模型衡量由文本提示生成的圖像質量。VQAScore用計算模型對“Does this figure show {text}?”這一...
閱讀原文

AndroidLab

AndroidLab是用在訓練和系統評估Android自主代理的框架,集成文本和圖像模態操作環境,統一行動空間和可重現基準測試。AndroidLab支持大型語言模型和多模態模...
閱讀原文

Recraft V3

Recraft V3是Recraft公司推出的AI文本到圖像生成模型,在Hugging Face的文本到圖像模型排行榜上以1172的ELO評分榮獲第一。模型具有高質量的圖像生成和先進的...
閱讀原文

Magentic-One

Magentic-One 是微軟推出的通用多智能體系統,解決跨領域的復雜網絡和文件任務。系統基于多智能體架構,由Orchestrator智能體領導,協調WebSurfer、FileSurfe...
閱讀原文

X-Portrait 2

X-Portrait 2是字節跳動智能創作團隊推出的單圖視頻驅動技術,基于一張靜態照片和一段驅動視頻生成高質量、電影級視頻。X-Portrait 2保留原圖身份特征,準確...
閱讀原文

Ichigo

Ichigo是開源的多模態AI語音助手,采用混合模態模型,能實時處理語音和文本的交織序列。基于將語音直接量化為離散令牌,用統一的變換器架構同時處理語音和文...
閱讀原文

CogSound

CogSound是智譜AI最新推出的音效模型,能為無聲視頻增添動人的音效。 基于GLM-4V的視頻理解能力,CogSound能精準識別理解視頻背后的語義和情感,為無聲視頻添...
閱讀原文

AgentSquare

AgentSquare是清華大學團隊推出自動搜索和優化大型語言模型(LLM)代理的框架?;跇藴驶哪K接口抽象,實現AI智能體的高速自我演化和自適應演進??蚣馨?..
閱讀原文

Fashion-VDM

Fashion-VDM是谷歌和華盛頓大學共同推出的基于視頻擴散模型(VDM)的虛擬試穿技術。能在給定服裝圖像和人物視頻的情況下,生成人物穿著指定服裝的高質量試穿...
閱讀原文

olly.bot

Olly.bot是集成于iMessage和SMS的個人AI助手,基于OpenAI大模型,提供網絡搜索、文檔分析、圖片生成等功能。Olly.bot無需下載、注冊,不收集用戶身份信息,保...
閱讀原文

AdaCache

AdaCache(Adaptive Caching)是Meta推出的開源技術,能加速AI視頻生成過程。AdaCache自適應緩存機制優化計算資源分配,根據不同視頻內容的復雜度動態調整計...
閱讀原文

CogVideoX v1.5

CogVideoX v1.5是智譜最新開源的AI視頻生成模型。模型包含CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V兩個版本,5B 系列模型支持生成5至10秒、768P分辨率、16...
閱讀原文

MiLoRA

MiLoRA是參數高效的大型語言模型(LLMs)微調方法,通過更新權重分量來矩陣的次要奇異減少計算和內存成本。方法基于奇異值分解(SVD)將權重矩陣分為主要和次...
閱讀原文
1142143144145