標簽:個性化推薦

EMO

EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參考圖像和語...
閱讀原文

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型適配器)是由騰訊的研究人員推出的一種新型方法,旨在提升文本到圖像生成模型在處理復雜文本提...
閱讀原文

Follow-Your-Click

Follow-Your-Click是一個由來自騰訊公司(混元團隊)聯合清華大學和香港科技大學的研究人員共同研發的圖像到視頻(Image-to-Video,簡稱I2V)生成模型,允許...
閱讀原文

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構,通過三個階段訓練:大規模圖像預訓練、大...
閱讀原文

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體(AI Agents)框架,專門用于通用視頻生成任務,目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...
閱讀原文

Champ

Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基于3D的將人物圖片轉換為視頻動畫的模型,該方法結合了3D參數化模型(特別是SMPL模型)和潛...
閱讀原文

Gauth APP

Gauth APP是由字節跳動的海外子公司開發的一款智能學習輔助應用,專注于幫助學生高效解決數學、化學、物理等科目的復雜問題。
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...
閱讀原文

IDM-VTON

IDM-VTON是由韓國科學技術院和OMNIOUS.AI的研究人員提出的一種先進的AI虛擬試穿技術,通過改進擴散模型來生成逼真的人物穿戴圖像,實現更真實的虛擬試穿效果。
閱讀原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先進的人工智能模型,具備強大的多模態推理能力,能夠處理語音、文本和視覺信息。該模型能夠實時響應用戶輸入,并且在音頻交互...
閱讀原文

Stable Assistant

Stable Assistant是由Stability AI開發的一款聊天機器人,集成了最新的文本和圖像生成技術(Stable Diffusion 3和Stable LM 2 12B )。該AI對話工具能夠理解...
閱讀原文

騰訊元寶APP

騰訊元寶APP是騰訊于5月30日最新推出的一款基于騰訊混元大模型的AI助手應用,旨在通過先進的人工智能技術,為用戶提供辦公、學習、創作和生活等方面的輔助。
閱讀原文

Gen-3 Alpha

Gen-3 Alpha是由AI視頻初創公司Runway最新發布的新一代AI視頻生成模型,通過大規模多模態訓練基礎設施,顯著提升了視頻的保真度、一致性和動態表現。該模型能...
閱讀原文

FreeAskInternet

FreeAskInternet是一個免費開源的本地AI搜索引擎,整合了GPT-3.5等先進的大型語言模型(LLM)和SearXNG元搜索引擎,為用戶提供搜索和智能答案生成服務。
閱讀原文
1192021222330