標簽:多語言支持

Chinese-LiPS

Chinese-LiPS 是智源研究院聯合南開大學共同打造的高質量中文多模態語音識別數據集,包含100小時的語音、視頻和手動轉錄文本,創新性地融合了唇讀視頻和演講...
閱讀原文

Seed1.5-VL

Seed1.5-VL 是字節跳動 Seed 團隊最新發布的視覺-語言多模態大模型,具備強大的通用多模態理解和推理能力,推理成本顯著降低。模型由一個 532M 參數的視覺編...
閱讀原文

Lovart

Lovart 是為設計師打造的世界上首個專業設計 Agent。Lovart 能像專業設計師一樣思考和執行設計任務,提供高水平的設計方案。基于自然語言交互,用戶能快速調...
閱讀原文

OptoChat AI

OptoChat AI是南智光電與南京大學共同推出的國內首款光子專用大模型。模型聚焦光子領域全產業鏈,集成超過30萬條光子芯片相關專利、文獻和行業數據資源,具備...
閱讀原文

Ciro

Ciro 是自動化 LinkedIn 拓客的 AI 工具,幫助銷售團隊高效篩選潛在客戶。通過 AI 技術掃描 LinkedIn 上的海量用戶資料,根據用戶設定的理想客戶畫像進行篩選...
閱讀原文

OpusSearch

OpusSearch 是 OpusClip 推出的 AI 視頻搜索工具,是專業創作者和企業的“定制 AI 大腦”,OpusSearch 能讓用戶快速搜索并再利用視頻庫中的任何內容,可按主題...
閱讀原文

BILIVE

BILIVE 是一款基于 AI 技術的開源工具,專為 B 站直播錄制與處理設計。工具支持自動錄制直播、渲染彈幕和字幕,支持語音識別、自動切片精彩片段,生成有趣的...
閱讀原文

SuperEdit

SuperEdit是字節跳動智能創作團隊和佛羅里達中央大學計算機視覺研究中心聯合推出的指令引導圖像編輯方法,基于優化監督信號提高圖像編輯的精度和效果。SuperE...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文

KuaiMod

KuaiMod 是快手推出的基于多模態大模型的短視頻質量判別框架,能高效識別和過濾有害及低質量內容。框架借鑒普通法(Common Law)體系,基于案例驅動的方式動...
閱讀原文

WebThinker

WebThinker是中國人民大學、北京智源人工智能研究院和華為泊松實驗室等機構提出的深度研究智能體。WebThinker賦能大型推理模型(LRMs)在推理過程中自主進行...
閱讀原文

ZeroSearch

ZeroSearch 是阿里巴巴通義實驗室開源的創新大模型搜索引擎框架,基于強化學習激勵大模型的搜索能力,無需與真實搜索引擎交互。框架愛基于大模型預訓練知識,...
閱讀原文

Avatar IV

Avatar IV 是 HeyGen 推出的數字人模型,用在快速創建逼真視頻。用戶只需上傳一張照片和一段腳本或音頻,能生成自然流暢的視頻。模型基于音頻驅動的表情引擎...
閱讀原文

Smart PDFs

Smart PDFs 是免費開源的 AI 驅動 PDF 文檔總結工具,能快速將 PDF 文檔中的關鍵信息整理為清晰的章節式總結,支持學術論文、行業報告或技術文檔,能在數秒內...
閱讀原文

Ztalk.ai

Ztalk.ai 是AI桌面應用程序,專注于實時語音翻譯。支持超過30種語言,延遲小于100毫秒,能與Zoom、Google Meet、Teams等主流視頻會議工具無縫集成。
閱讀原文
13456761