標簽:實時翻譯

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成...
閱讀原文

EchoMimic

EchoMimic是阿里螞蟻集團推出的AI數字人開源項目,賦予靜態圖像以生動語音和表情。通過深度學習模型結合音頻和面部標志點,創造出高度逼真的動態肖像視頻。不...
閱讀原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實現了并行處理,顯著提升...
閱讀原文

漢王語音王

漢王語音王是漢王科技推出的智能語音APP,集成了AI語音記錄、翻譯與同聲傳譯功能?;谧匝械亩嗄B大模型,支持高準確率轉寫、拍錄同步、智能總結和實時翻譯...
閱讀原文

Qwen2-Audio

Qwen2-Audio是阿里通義千問團隊最新推出的開源AI語音模型,支持直接語音輸入和多語言文本輸出。具備語音聊天、音頻分析功能,支持超過8種語言。Qwen2-Audio在...
閱讀原文

MDT-A2G

MDT-A2G是復旦大學和騰訊優圖聯合推出的AI模型,專門用于根據語音內容同步生成相應的手勢動作。MDT-A2G模仿人類在交流時自然產生的手勢,計算機能更加生動和...
閱讀原文

Mo卡片

Mo卡片是一站式AI知識庫卡片式學習工具。Mo卡片以卡片形式提供1500+張專業AI知識卡片,涵蓋理論、實操、特別篇等主題。用戶通過圖文、動畫、視頻、語音等互動...
閱讀原文

Seed-ASR

Seed-ASR是字節跳動開發的一款基于大型語言模型(LLM)的語音識別(ASR)模型。在超過2000萬小時的語音數據和近90萬小時的配對ASR數據上訓練,支持普通話和13...
閱讀原文

Media.io

Media.io是一個在線AI音視頻編輯平臺,提供AI工具幫助用戶快速提升內容質量。Media.io擁有多功能工具箱,適合商業、營銷、社交媒體和娛樂創作者使用。
閱讀原文

EasyOCR

EasyOCR 是一個功能強大的開源OCR(光學字符識別)項目,支持80多種語言和多種書寫系統,包括中文、阿拉伯文和西里爾文。基于深度學習技術,提供高精度的文字...
閱讀原文

STranslate

STranslate是專為Windows用戶設計的多功能翻譯和OCR工具。支持多種語言翻譯,具備劃詞、截圖、監聽剪貼板等多種翻譯方式,并提供多家翻譯服務接口。還擁有基...
閱讀原文

VoxInstruct

VoxInstruct 是由清華大學開源的語音合成技術,能根據人類語言指令生成高度符合用戶需求的語音。系統采用統一的多語言編解碼器語言建??蚣埽瑢鹘y的文本到...
閱讀原文