標簽:情感分析

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型適配器)是由騰訊的研究人員推出的一種新型方法,旨在提升文本到圖像生成模型在處理復雜文本提...
閱讀原文

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構,通過三個階段訓練:大規模圖像預訓練、大...
閱讀原文

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體(AI Agents)框架,專門用于通用視頻生成任務,目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

SWE-agent

SWE-agent是一個由普林斯頓大學NLP組研究人員開發的開源AI程序員和軟件工程師系統,利用大型語言模型(如GPT-4)的能力,可以自動解決GitHub存儲庫中的問題。...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Llama 3

Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標志著開源人工智能領域的又一重大進步。作為Llama系列的第三...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

騰訊元器

騰訊元器是騰訊公司在騰訊云生成式AI產業應用峰會上推出的一款基于其騰訊混元大模型的AI智能體創作與分發平臺,可幫助用戶輕松創建和部署智能體,無需編寫代...
閱讀原文

Gen-3 Alpha

Gen-3 Alpha是由AI視頻初創公司Runway最新發布的新一代AI視頻生成模型,通過大規模多模態訓練基礎設施,顯著提升了視頻的保真度、一致性和動態表現。該模型能...
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成...
閱讀原文

Moshi

Moshi是由法國的的人工智能研究實驗室Kyutai推出的一款端到端實時音頻多模態AI模型,擁有聽、說、看的能力,并能模擬70種不同的情緒和風格進行交流。作為對標...
閱讀原文

Chameleon

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究團隊 FAIR(Facebook AI Research)發布的一個能理解和生成任意序列的圖像和文本的混合多模態模型。擁...
閱讀原文

GPT-4o mini

GPT-4o mini 是 OpenAI 最新推出的一款AI大模型,提供更高效、更具成本效益的解決方案。這款新模型替代 GPT-3.5,成為市場上最具成本效益的小型模型。GPT-4o ...
閱讀原文

盤盤單詞

盤盤單詞是百度網盤推出的AI英語學習微信小程序。采用生成式AI技術,分析用戶百度網盤的照片,提取關鍵元素,自動生成與用戶生活緊密相關的英語單詞和例句,...
閱讀原文
1232425262737