標(biāo)簽:語音識(shí)別

RTranslator

RTranslator 是一款開源、免費(fèi)、離線實(shí)時(shí)翻譯應(yīng)用程序,專為 Android 設(shè)備設(shè)計(jì)。基于先進(jìn)的AI技術(shù),包括 Meta 的 NLLB 翻譯模型和 OpenAI 的 Whisper 語音識(shí)...
閱讀原文

RD-Agent

RD-Agent是一個(gè)開源的自動(dòng)化研究與開發(fā)(R&D)工具,由微軟亞洲研究院推出。基于AI技術(shù)推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的AI研發(fā)過程,專注于簡(jiǎn)化模型和數(shù)據(jù)的開發(fā)。RD-Agent...
閱讀原文

VideoLingo

VideoLingo 是一款一鍵全自動(dòng)視頻翻譯工具,能將視頻進(jìn)行字幕切割、翻譯、對(duì)齊和配音,最終生成 Netflix 級(jí)別的字幕和配音。VideoLingo 基于自然語言處理(NL...
閱讀原文

TinyVLA

TinyVLA是一種面向機(jī)器人操控的視覺-語言-動(dòng)作(VLA)模型,由華東師范大學(xué)和上海大學(xué)團(tuán)隊(duì)推出。針對(duì)現(xiàn)有VLA模型的不足,如推理速度慢和需要大量數(shù)據(jù)預(yù)訓(xùn)練,...
閱讀原文

Reverb ASR

Reverb ASR是Rev公司推出的開源自動(dòng)語音識(shí)別和說話人分離模型,基于20萬小時(shí)的人工轉(zhuǎn)錄英語數(shù)據(jù)訓(xùn)練而成。模型在長(zhǎng)語音識(shí)別領(lǐng)域表現(xiàn)卓越,適合處理如播客和財(cái)...
閱讀原文

Loong

Loong是由香港大學(xué)和字節(jié)跳動(dòng)聯(lián)合推出的一種新型長(zhǎng)視頻生成模型,能生成外觀一致、動(dòng)態(tài)豐富、場(chǎng)景過渡自然的分鐘級(jí)長(zhǎng)視頻。模型基于自回歸大型語言模型(LLM...
閱讀原文

Agent-S

Agent-S 是創(chuàng)新的代理框架,旨在基于圖形用戶界面(GUI)實(shí)現(xiàn)人機(jī)交互的自動(dòng)化。Agent-S 基于模擬人類的操作方式,用鼠標(biāo)和鍵盤直接與計(jì)算機(jī)交互,處理復(fù)雜的...
閱讀原文

AsrTools

AsrTools是一款高效的智能語音轉(zhuǎn)文字工具,能將音頻文件快速轉(zhuǎn)換成精確的文字內(nèi)容。工具的優(yōu)勢(shì)在于無需復(fù)雜的配置,直接調(diào)用大廠的ASR接口,無需GPU支持,用...
閱讀原文

Langotalk

Langotalk是一個(gè)創(chuàng)新的在線語言學(xué)習(xí)平臺(tái),基于AI技術(shù)為語言學(xué)習(xí)者提供個(gè)性化和沉浸式的學(xué)習(xí)體驗(yàn)。平臺(tái)支持20多種語言,如英語、西班牙語、法語、德語、意大利...
閱讀原文

FunASR

FunASR是由阿里巴巴達(dá)摩院開源的語音識(shí)別工具包,提供包括語音識(shí)別(ASR)、語音活動(dòng)檢測(cè)(VAD)、標(biāo)點(diǎn)恢復(fù)、語言模型、說話人驗(yàn)證、說話人分離及多說話人ASR...
閱讀原文

TANGO

TANGO 是一個(gè)由東京大學(xué)和 CyberAgent AI Lab 共同推出的開源框架,專注于生成與目標(biāo)語音同步的全身手勢(shì)視頻。基于分層音頻運(yùn)動(dòng)嵌入和擴(kuò)散插值網(wǎng)絡(luò),將目標(biāo)語...
閱讀原文

Lingua

Lingua 是 Meta AI推出的一個(gè)輕量級(jí)且獨(dú)立的代碼庫,旨在助力大規(guī)模訓(xùn)練語言模型。基于易于修改的 PyTorch 組件,便于研究人員嘗試新的模型架構(gòu)、損失函數(shù)和...
閱讀原文

有掛

有掛是一款創(chuàng)新的瀏覽器AI插件,基于自然語言處理技術(shù),使用戶用簡(jiǎn)單的命令或?qū)υ捫薷木W(wǎng)頁內(nèi)容,無需任何編程知識(shí)。插件支持Chrome、Edge和Arc瀏覽器,具備個(gè)...
閱讀原文

麥芽島

麥芽島是由科大訊飛推出的一款A(yù)I虛擬角色互動(dòng)聊天應(yīng)用。用戶可以創(chuàng)建和自定義虛擬角色,與之進(jìn)行沉浸式對(duì)話,模擬情感陪伴和劇情互動(dòng)。用戶可以設(shè)定角色的外...
閱讀原文

Act-One

Act-One 是 Runway推出的AI生成式角色表演工具,基于簡(jiǎn)單的視頻輸入生成富有表現(xiàn)力的角色表演。工具用生成式模型,將演員的現(xiàn)場(chǎng)表演轉(zhuǎn)化為3D模型,適于動(dòng)畫流...
閱讀原文
11112131415