標簽:智能語音助手

HART:自回歸視覺生成模型推動圖像生成的創新與精準

HART(Hybrid Autoregressive Transformer)是麻省理工學院研究團隊推出的自回歸視覺生成模型。能直接生成1024×1024像素的高分辨率圖像,質量媲美擴散模型。H...
閱讀原文

Skywork o1:天工大模型4.0 O1版:智能生成與多模態交互的革新體驗

Skywork o1是昆侖萬維推出的天工大模型4.0 o1版,是國內首款具備中文邏輯推理能力的o1模型。Skywork o1在模型輸出中內生了思考、計劃、反思等能力,顯著提升...
閱讀原文

Chonkie:多種文本分塊技術:基于Token、單詞、句子與語義的分析方法

Chonkie是輕量級、快速且功能豐富的RAG(Retrieval-Augmented Generation)分塊庫,為文本處理設計。Chonkie支持基于Token、單詞、句子和語義的多種分塊方法...
閱讀原文

聲動視界:AI視頻工具在帶貨短視頻領域的翻譯與配音功能

聲動視界是面向帶貨短視頻的AI視頻工具。提供視頻翻譯、文本轉語音和視頻配音等功能,支持100多種語言,助力用戶將產品推廣至全球市場。基于音頻合成技術,聲...
閱讀原文

Heeyo

Heeyo是一款專為3至11歲兒童設計的智能AI學習伙伴,提供2000多種互動學習游戲,涵蓋閱讀、科學、智力問答等。Heeyo AI學習伙伴支持20種語言,由頂尖教育機構...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Mem0

Mem0 是一款開源的大語言模型記憶增強工具,能夠讓 AI 擁有長期、適應性強的記憶。通過自適應記憶系統,AI能實現跨應用記住用戶的偏好和交互,提供連貫且不斷...
閱讀原文

漢王語音王

漢王語音王是漢王科技推出的智能語音APP,集成了AI語音記錄、翻譯與同聲傳譯功能。基于自研的多模態大模型,支持高準確率轉寫、拍錄同步、智能總結和實時翻譯...
閱讀原文

HeadGAP

HeadGAP是字節跳動和上海科技大學共同推出的3D頭像生成模型,僅用少量圖片快速生成逼真的3D頭像。采用先驗學習和個性化創建階段的框架,基于大規模多視角動態...
閱讀原文

MyShell

MyShell 是一個構建、共享和管理 AI 應用的開發平臺,提供三種模式,包括經典、開發和無代碼模式,適應不同技能水平的創作者。MyShell 旨在簡化 AI 應用程序...
閱讀原文

Eagle

Eagle是英偉達推出的多模態大模型,擅長處理高達1024×1024像素的圖像,顯著提升視覺問答和文檔理解能力。Eagle模型采用多專家視覺編碼器架構,通過簡單高效的...
閱讀原文

VoxInstruct

VoxInstruct 是由清華大學開源的語音合成技術,能根據人類語言指令生成高度符合用戶需求的語音。系統采用統一的多語言編解碼器語言建模框架,將傳統的文本到...
閱讀原文

Draw an Audio

Draw an Audio 是中國科學院自動化研究所和美團點評的研究人員推出的視頻生成音頻系統。根據視頻內容自動生成匹配的聲音效果,類似于電影制作中的 Foley 藝術...
閱讀原文

紙飛機AI

紙飛機AI是北京智能涌現科技推出的AI虛擬陪伴產品,它通過先進的人工智能技術讓用戶能夠創造具有個性化特征的AI智能體,AI智能體能夠與用戶進行類似真人的互...
閱讀原文

Zona

Zona 是App-Vision推出的AI音樂生成器,通過用戶的想法和想象力,無需樂器可創作出美妙的音樂。Zona 提供直觀、有趣的界面,用戶隨時隨地創作音樂,就像隨身...
閱讀原文