標簽:自然語言處理

FLUX-Text

FLUX-Text 是阿里推出的新型的多語言場景文本編輯框架,基于擴散模型(Diffusion Model)和輕量級字形嵌入模塊。框架基于注入字形條件信息,提升復雜場景下文...
閱讀原文

Nexus-Gen

Nexus-Gen 是魔搭團隊、華東師范大學等機構推出的開源全能圖像生成模型,支持同時完成圖像理解、生成和編輯任務。Nexus-Gen融合強大的語言模型與擴散模型的能...
閱讀原文

MCPHub

MCPHub是一站式MCP(模型上下文協議)服務器聚合平臺。支持將多個MCP服務器整合到不同的流式HTTP(SSE)端點,基于直觀的Web界面和強大的協議處理能力,簡化A...
閱讀原文

雪鸮AI

雪鸮AI是高效便捷的在線AI繪畫輔助工具。具有穩定可控、簡單高效的特點,能精準控制圖像生成,無需復雜操作。功能豐富,包括大師模型、動畫場景細化、黑白概...
閱讀原文

Chinese-LiPS

Chinese-LiPS 是智源研究院聯合南開大學共同打造的高質量中文多模態語音識別數據集,包含100小時的語音、視頻和手動轉錄文本,創新性地融合了唇讀視頻和演講...
閱讀原文

Seed1.5-VL

Seed1.5-VL 是字節跳動 Seed 團隊最新發布的視覺-語言多模態大模型,具備強大的通用多模態理解和推理能力,推理成本顯著降低。模型由一個 532M 參數的視覺編...
閱讀原文

PrimitiveAnything

PrimitiveAnything是騰訊人工智能平臺部(AIPD)和清華大學聯合開發的新型3D形狀生成框架。將復雜的3D形狀分解為簡單的基元元素,通過自回歸方式生成這些基元...
閱讀原文

OptoChat AI

OptoChat AI是南智光電與南京大學共同推出的國內首款光子專用大模型。模型聚焦光子領域全產業鏈,集成超過30萬條光子芯片相關專利、文獻和行業數據資源,具備...
閱讀原文

Day.ai

Day.ai 是 HubSpot 前高管創立的 AI 原生 CRM 工具,通過 AI 技術自動從電子郵件和視頻會議中提取信息,為客戶創建完善的 CRM 系統。核心功能包括AI 驅動的會...
閱讀原文

OpusSearch

OpusSearch 是 OpusClip 推出的 AI 視頻搜索工具,是專業創作者和企業的“定制 AI 大腦”,OpusSearch 能讓用戶快速搜索并再利用視頻庫中的任何內容,可按主題...
閱讀原文

BILIVE

BILIVE 是一款基于 AI 技術的開源工具,專為 B 站直播錄制與處理設計。工具支持自動錄制直播、渲染彈幕和字幕,支持語音識別、自動切片精彩片段,生成有趣的...
閱讀原文

LTXV-13B

LTXV-13B 是Lightricks推出的開源 AI 視頻生成模型,擁有 130 億參數。具備極高的生成速度,比同類產品快 30 倍,能在普通消費級顯卡(如 4090/5090)上運行...
閱讀原文

Mogao

Mogao是字節跳動Seed團隊推出的交錯多模態生成全基礎模型。在架構上采用了雙視覺編碼器,結合變分自編碼器(VAE)和視覺變換器(ViT),能更好地進行視覺理解...
閱讀原文

FlowGram.AI

FlowGram 是字節跳動開源的基于節點編輯的前端流程搭建引擎,幫助開發者快速構建固定布局或自由連線布局的工作流。支持兩種布局模式:固定布局適合順序工作流...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文
14567868