標簽:自然語言處理

Champ

Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基于3D的將人物圖片轉換為視頻動畫的模型,該方法結合了3D參數化模型(特別是SMPL模型)和潛...
閱讀原文

AI應用集

AI應用集人工智能應用商店匯集了各類人工智能APP,從生活助手到辦公工具,從教育學習到娛樂休閑,海量安卓和iOS人工智能APP免費下載。
閱讀原文

Gauth APP

Gauth APP是由字節跳動的海外子公司開發的一款智能學習輔助應用,專注于幫助學生高效解決數學、化學、物理等科目的復雜問題。
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

SWE-agent

SWE-agent是一個由普林斯頓大學NLP組研究人員開發的開源AI程序員和軟件工程師系統,利用大型語言模型(如GPT-4)的能力,可以自動解決GitHub存儲庫中的問題。...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

Llama 3

Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標志著開源人工智能領域的又一重大進步。作為Llama系列的第三...
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

AniTalker

AniTalker是由來自上海交大X-LANCE實驗室和思必馳AISpeech的研究人員推出的一個對口型說話視頻生成框架,能夠將單張靜態人像和輸入的音頻轉換成栩栩如生的動...
閱讀原文

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型,經過超過1250萬小時的多語種音頻數據訓練,支持英語、西班牙語、法語和德語等。
閱讀原文

Stable Assistant

Stable Assistant是由Stability AI開發的一款聊天機器人,集成了最新的文本和圖像生成技術(Stable Diffusion 3和Stable LM 2 12B )。該AI對話工具能夠理解...
閱讀原文

ChatTTS

ChatTTS是一款專為對話場景設計的支持中英文的文本轉語音(TTS)模型,基于約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。
閱讀原文

Qwen2

Qwen2是由阿里云通義千問團隊開源的新一代大語言模型,該系列涵蓋了從0.5B到72B不等的五個規模模型,在中文和英文基礎上增加了27種語言的高質量數據,大幅提...
閱讀原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI語音初創公司ElevenLabs推出的一款文本轉語音應用,利用AI技術將各類文本內容,如文章、PDF文件、ePub等,轉化為自然流暢、高音...
閱讀原文
1454647484967