標簽:自然語言處理

SWE-agent

SWE-agent是一個由普林斯頓大學NLP組研究人員開發的開源AI程序員和軟件工程師系統,利用大型語言模型(如GPT-4)的能力,可以自動解決GitHub存儲庫中的問題。...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

Llama 3

Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標志著開源人工智能領域的又一重大進步。作為Llama系列的第三...
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

AniTalker

AniTalker是由來自上海交大X-LANCE實驗室和思必馳AISpeech的研究人員推出的一個對口型說話視頻生成框架,能夠將單張靜態人像和輸入的音頻轉換成栩栩如生的動...
閱讀原文

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型,經過超過1250萬小時的多語種音頻數據訓練,支持英語、西班牙語、法語和德語等。
閱讀原文

Stable Assistant

Stable Assistant是由Stability AI開發的一款聊天機器人,集成了最新的文本和圖像生成技術(Stable Diffusion 3和Stable LM 2 12B )。該AI對話工具能夠理解...
閱讀原文

ChatTTS

ChatTTS是一款專為對話場景設計的支持中英文的文本轉語音(TTS)模型,基于約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。
閱讀原文

Qwen2

Qwen2是由阿里云通義千問團隊開源的新一代大語言模型,該系列涵蓋了從0.5B到72B不等的五個規模模型,在中文和英文基礎上增加了27種語言的高質量數據,大幅提...
閱讀原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI語音初創公司ElevenLabs推出的一款文本轉語音應用,利用AI技術將各類文本內容,如文章、PDF文件、ePub等,轉化為自然流暢、高音...
閱讀原文

Gemma 2

Gemma 2是谷歌DeepMind推出的新一代開源人工智能模型,包含90億和270億參數版本。該模型以卓越的性能、高效的推理速度和廣泛的硬件兼容性為特點,能夠與參數...
閱讀原文

Moshi

Moshi是由法國的的人工智能研究實驗室Kyutai推出的一款端到端實時音頻多模態AI模型,擁有聽、說、看的能力,并能模擬70種不同的情緒和風格進行交流。作為對標...
閱讀原文

Chameleon

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究團隊 FAIR(Facebook AI Research)發布的一個能理解和生成任意序列的圖像和文本的混合多模態模型。擁...
閱讀原文

Mem0

Mem0 是一款開源的大語言模型記憶增強工具,能夠讓 AI 擁有長期、適應性強的記憶。通過自適應記憶系統,AI能實現跨應用記住用戶的偏好和交互,提供連貫且不斷...
閱讀原文
1464748495068