標簽:實時翻譯

口語精靈

口語精靈是AI口語學習軟件,通過先進的人工智能技術和真人語音模擬,為用戶提供1V1的對話練習體驗。用戶可以隨時隨地與AI老師互動,跨越國界,學習不同地區的...
閱讀原文

Dolphin

Dolphin是清華大學電子工程系語音與音頻技術實驗室聯合海天瑞聲共同推出的面向東方語言的語音大模型。支持40個東方語種的語音識別,中文語種涵蓋22種方言(含...
閱讀原文

Translate Image

Translate Image 是免費的在線 AI 圖片翻譯工具,專為需要快速翻譯圖片中文字的用戶設計。支持多種圖片格式(如 JPG、PNG、JPEG 等),可處理產品圖片、電商...
閱讀原文

Chirp 3

Chirp 3 是谷歌云推出的高清語音合成模型,專為生成自然、生動的語音而設計。支持 248 種聲音和 31 種語言,能捕捉人類語調的細微差別,語音輸出更加貼近真實...
閱讀原文

TicVoice 7.0

TicVoice 7.0 是出門問問推出的第七代高品質 TTS(語音合成)引擎,基于新一代語音生成模型 Spark-TTS 。TicVoice 7.0基于創新的 BiCodec 編碼方式,將語音分...
閱讀原文

Pinch

Pinch 是創新的實時 AI 語音翻譯視頻會議平臺,專為打破語言障礙而設計,支持超過 30 種語言的即時語音翻譯。提供兩種翻譯模式:口譯模式和同聲傳譯模式,分...
閱讀原文

X-R1

X-R1是基于強化學習的低成本訓練框架,能加速大規模語言模型的后訓練(Scaling Post-Training)開發。X-R1用極低的成本訓練0.5B(5億參數)規模的R1-Zero模型...
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學語言技術實驗室、中國科學院自動化研究所推出的新型多模態推理范式,基于生成圖像可視化...
閱讀原文

播記

播記是專為播客創作者設計的智能節目筆記(Shownotes)生成工具。通過AI技術,能快速提取播客音頻中的關鍵信息,自動生成包含節目主題、嘉賓介紹、重要觀點、...
閱讀原文

LipRead Pro

LipRead Pro 是基于先進 AI 技術的視頻唇讀工具,能將視頻中的唇部動作轉換為文字。采用最新的深度學習模型,支持多種語言和口音,應用于內容創作、無障礙輔...
閱讀原文

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能實驗版AI模型,專為編程性能和復雜提示處理優化。Gemini 2.0 Pro具備200萬tokens的超大上下文窗口,能處理和分析海量信息...
閱讀原文

星火語音同傳大模型

星火語音同傳大模型是科大訊飛于2025年1月15日發布的國內首個具備端到端語音同傳能力的大模型。模型在內容完整度、信息準確度以及語言質量上均處于行業領先水...
閱讀原文

Sky-T1

Sky-T1是加州大學伯克利分校Sky Computing實驗室的研究團隊NovaSky發布的開源推理AI模型,名為Sky-T1-32B-Preview。是首個開源推理模型,訓練數據集和代碼均...
閱讀原文

Ingredients

Ingredients是強大的框架,基于將多個特定身份(ID)照片與視頻擴散Transformer相結合,用在定制視頻創作。Ingredients基于三個核心模塊實現高度定制化的視頻...
閱讀原文

Languine

Languine 是 AI 驅動的翻譯工具,能幫助開發者簡化應用程序的開發過程。Languine 基于智能檢測、AI 翻譯、自動化工作流程和開發者友好的設計,讓翻譯管理變得...
閱讀原文
12346