標簽:實時翻譯

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

Qwen3-LiveTranslate

Qwen3-LiveTranslate 是阿里通義團隊推出的基于大語言模型的多語言實時音視頻同傳模型。模型支持 18 種語言及多種方言的翻譯,具備視覺增強技術,可結合口型...
閱讀原文

Ray-Ban Meta

Ray-Ban Meta是雷朋與Meta聯合推出的智能眼鏡,將時尚設計與前沿科技完美融合。Ray-Ban Meta具備語音助手、實時導航、智能通知、拍照錄像及音樂播放等多功能...
閱讀原文

Seed LiveInterpret 2.0

Seed LiveInterpret 2.0 是字節跳動Seed團隊推出的端到端同聲傳譯模型,支持中英雙向翻譯。具備接近真人水平的翻譯準確率和極低的延遲,能實現“邊聽邊說”的實...
閱讀原文

Speakr

Speakr是開源免費的AI會議助手,支持確保數據絕對私密的前提下,自動化完成會議錄音轉寫、內容摘要提煉與智能問答。Speakr無需聯網就能運行,所有數據處理均...
閱讀原文

MultiTalk

MultiTalk 是中山大學深圳校區、美團和香港科技大學聯合推出的新型音頻驅動多人對話視頻生成框架。框架根據多聲道音頻輸入、參考圖像和文本提示,生成包含人...
閱讀原文

Unmute

Unmute 是 Kyutai 推出的低延遲語音交互系統,專注于低延遲語音轉文字(Speech-to-Text)和文字轉語音(Text-to-Speech)。Unmute 基于先進的 AI 模型,為用...
閱讀原文

Veo 3

Veo 3是谷歌I/O開發者大會上發布的新一代視頻生成模型。Veo 3是谷歌首個可生成視頻背景音效的模型,能合成畫面,能為鳥鳴、街頭交通等場景配上相應的音效,可...
閱讀原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到語音(TTS)模型。模型基于回歸 Transformer 架構,實現零樣本語音克隆,僅需幾秒參考語音能生成高度相似的目標語音...
閱讀原文

Audio-SDS

Audio-SDS是NVIDIA AI研究團隊推出的創新技術,將Score Distillation Sampling(SDS)技術擴展至文本條件音頻擴散模型,為音頻處理領域帶來了重大突破。無需...
閱讀原文

LTXV-13B

LTXV-13B 是Lightricks推出的開源 AI 視頻生成模型,擁有 130 億參數。具備極高的生成速度,比同類產品快 30 倍,能在普通消費級顯卡(如 4090/5090)上運行...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文

Eagle 2.5

Eagle 2.5是英偉達推出的視覺語言模型,專注于長上下文多模態學習的 AI 模型,參數規模僅為 8B。參數量較小,但在處理高分辨率圖像和長視頻序列方面表現出色...
閱讀原文

Trae 插件

Trae 插件是 Trae 旗下新一代 AI 編程助手(原 MarsCode 編程助手),以插件形態集成在本地 IDE 之中,兼容性強、使用靈活。提升開發效率和代碼質量。支持100...
閱讀原文

破殼AI口語

破殼AI口語是AI英語口語學習應用,基于AI技術為用戶提供個性化口語練習體驗。破殼AI口語涵蓋生活、校園、旅游、職場等多場景對話,幫助用戶提升流利度、語法...
閱讀原文

Nova Sonic

Nova Sonic 是亞馬遜推出的新型生成式 AI 語音模型。將語音理解與生成能力整合到一個模型中,能根據說話者的語調、風格等聲學上下文調整生成的語音響應,對話...
閱讀原文
1236