標(biāo)簽:實時翻譯

口語精靈

口語精靈是AI口語學(xué)習(xí)軟件,通過先進(jìn)的人工智能技術(shù)和真人語音模擬,為用戶提供1V1的對話練習(xí)體驗。用戶可以隨時隨地與AI老師互動,跨越國界,學(xué)習(xí)不同地區(qū)的...
閱讀原文

Dolphin

Dolphin是清華大學(xué)電子工程系語音與音頻技術(shù)實驗室聯(lián)合海天瑞聲共同推出的面向東方語言的語音大模型。支持40個東方語種的語音識別,中文語種涵蓋22種方言(含...
閱讀原文

Translate Image

Translate Image 是免費的在線 AI 圖片翻譯工具,專為需要快速翻譯圖片中文字的用戶設(shè)計。支持多種圖片格式(如 JPG、PNG、JPEG 等),可處理產(chǎn)品圖片、電商...
閱讀原文

Chirp 3

Chirp 3 是谷歌云推出的高清語音合成模型,專為生成自然、生動的語音而設(shè)計。支持 248 種聲音和 31 種語言,能捕捉人類語調(diào)的細(xì)微差別,語音輸出更加貼近真實...
閱讀原文

TicVoice 7.0

TicVoice 7.0 是出門問問推出的第七代高品質(zhì) TTS(語音合成)引擎,基于新一代語音生成模型 Spark-TTS 。TicVoice 7.0基于創(chuàng)新的 BiCodec 編碼方式,將語音分...
閱讀原文

Pinch

Pinch 是創(chuàng)新的實時 AI 語音翻譯視頻會議平臺,專為打破語言障礙而設(shè)計,支持超過 30 種語言的即時語音翻譯。提供兩種翻譯模式:口譯模式和同聲傳譯模式,分...
閱讀原文

X-R1

X-R1是基于強(qiáng)化學(xué)習(xí)的低成本訓(xùn)練框架,能加速大規(guī)模語言模型的后訓(xùn)練(Scaling Post-Training)開發(fā)。X-R1用極低的成本訓(xùn)練0.5B(5億參數(shù))規(guī)模的R1-Zero模型...
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學(xué)語言技術(shù)實驗室、中國科學(xué)院自動化研究所推出的新型多模態(tài)推理范式,基于生成圖像可視化...
閱讀原文

播記

播記是專為播客創(chuàng)作者設(shè)計的智能節(jié)目筆記(Shownotes)生成工具。通過AI技術(shù),能快速提取播客音頻中的關(guān)鍵信息,自動生成包含節(jié)目主題、嘉賓介紹、重要觀點、...
閱讀原文

LipRead Pro

LipRead Pro 是基于先進(jìn) AI 技術(shù)的視頻唇讀工具,能將視頻中的唇部動作轉(zhuǎn)換為文字。采用最新的深度學(xué)習(xí)模型,支持多種語言和口音,應(yīng)用于內(nèi)容創(chuàng)作、無障礙輔...
閱讀原文

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能實驗版AI模型,專為編程性能和復(fù)雜提示處理優(yōu)化。Gemini 2.0 Pro具備200萬tokens的超大上下文窗口,能處理和分析海量信息...
閱讀原文

星火語音同傳大模型

星火語音同傳大模型是科大訊飛于2025年1月15日發(fā)布的國內(nèi)首個具備端到端語音同傳能力的大模型。模型在內(nèi)容完整度、信息準(zhǔn)確度以及語言質(zhì)量上均處于行業(yè)領(lǐng)先水...
閱讀原文

Sky-T1

Sky-T1是加州大學(xué)伯克利分校Sky Computing實驗室的研究團(tuán)隊NovaSky發(fā)布的開源推理AI模型,名為Sky-T1-32B-Preview。是首個開源推理模型,訓(xùn)練數(shù)據(jù)集和代碼均...
閱讀原文

Ingredients

Ingredients是強(qiáng)大的框架,基于將多個特定身份(ID)照片與視頻擴(kuò)散Transformer相結(jié)合,用在定制視頻創(chuàng)作。Ingredients基于三個核心模塊實現(xiàn)高度定制化的視頻...
閱讀原文

Languine

Languine 是 AI 驅(qū)動的翻譯工具,能幫助開發(fā)者簡化應(yīng)用程序的開發(fā)過程。Languine 基于智能檢測、AI 翻譯、自動化工作流程和開發(fā)者友好的設(shè)計,讓翻譯管理變得...
閱讀原文
12346