標簽:語音識別

RTranslator

RTranslator 是一款開源、免費、離線實時翻譯應用程序,專為 Android 設備設計。基于先進的AI技術,包括 Meta 的 NLLB 翻譯模型和 OpenAI 的 Whisper 語音識...
閱讀原文

RD-Agent

RD-Agent是一個開源的自動化研究與開發(R&D)工具,由微軟亞洲研究院推出。基于AI技術推動數據驅動的AI研發過程,專注于簡化模型和數據的開發。RD-Agent...
閱讀原文

VideoLingo

VideoLingo 是一款一鍵全自動視頻翻譯工具,能將視頻進行字幕切割、翻譯、對齊和配音,最終生成 Netflix 級別的字幕和配音。VideoLingo 基于自然語言處理(NL...
閱讀原文

TinyVLA

TinyVLA是一種面向機器人操控的視覺-語言-動作(VLA)模型,由華東師范大學和上海大學團隊推出。針對現有VLA模型的不足,如推理速度慢和需要大量數據預訓練,...
閱讀原文

Reverb ASR

Reverb ASR是Rev公司推出的開源自動語音識別和說話人分離模型,基于20萬小時的人工轉錄英語數據訓練而成。模型在長語音識別領域表現卓越,適合處理如播客和財...
閱讀原文

Loong

Loong是由香港大學和字節跳動聯合推出的一種新型長視頻生成模型,能生成外觀一致、動態豐富、場景過渡自然的分鐘級長視頻。模型基于自回歸大型語言模型(LLM...
閱讀原文

Agent-S

Agent-S 是創新的代理框架,旨在基于圖形用戶界面(GUI)實現人機交互的自動化。Agent-S 基于模擬人類的操作方式,用鼠標和鍵盤直接與計算機交互,處理復雜的...
閱讀原文

AsrTools

AsrTools是一款高效的智能語音轉文字工具,能將音頻文件快速轉換成精確的文字內容。工具的優勢在于無需復雜的配置,直接調用大廠的ASR接口,無需GPU支持,用...
閱讀原文

Langotalk

Langotalk是一個創新的在線語言學習平臺,基于AI技術為語言學習者提供個性化和沉浸式的學習體驗。平臺支持20多種語言,如英語、西班牙語、法語、德語、意大利...
閱讀原文

FunASR

FunASR是由阿里巴巴達摩院開源的語音識別工具包,提供包括語音識別(ASR)、語音活動檢測(VAD)、標點恢復、語言模型、說話人驗證、說話人分離及多說話人ASR...
閱讀原文

TANGO

TANGO 是一個由東京大學和 CyberAgent AI Lab 共同推出的開源框架,專注于生成與目標語音同步的全身手勢視頻。基于分層音頻運動嵌入和擴散插值網絡,將目標語...
閱讀原文

Lingua

Lingua 是 Meta AI推出的一個輕量級且獨立的代碼庫,旨在助力大規模訓練語言模型。基于易于修改的 PyTorch 組件,便于研究人員嘗試新的模型架構、損失函數和...
閱讀原文

有掛

有掛是一款創新的瀏覽器AI插件,基于自然語言處理技術,使用戶用簡單的命令或對話修改網頁內容,無需任何編程知識。插件支持Chrome、Edge和Arc瀏覽器,具備個...
閱讀原文

麥芽島

麥芽島是由科大訊飛推出的一款AI虛擬角色互動聊天應用。用戶可以創建和自定義虛擬角色,與之進行沉浸式對話,模擬情感陪伴和劇情互動。用戶可以設定角色的外...
閱讀原文

Act-One

Act-One 是 Runway推出的AI生成式角色表演工具,基于簡單的視頻輸入生成富有表現力的角色表演。工具用生成式模型,將演員的現場表演轉化為3D模型,適于動畫流...
閱讀原文
11112131415