標簽:多語言支持
Chinese-LiPS
Chinese-LiPS 是智源研究院聯合南開大學共同打造的高質量中文多模態語音識別數據集,包含100小時的語音、視頻和手動轉錄文本,創新性地融合了唇讀視頻和演講...
Seed1.5-VL
Seed1.5-VL 是字節跳動 Seed 團隊最新發布的視覺-語言多模態大模型,具備強大的通用多模態理解和推理能力,推理成本顯著降低。模型由一個 532M 參數的視覺編...
OptoChat AI
OptoChat AI是南智光電與南京大學共同推出的國內首款光子專用大模型。模型聚焦光子領域全產業鏈,集成超過30萬條光子芯片相關專利、文獻和行業數據資源,具備...
OpusSearch
OpusSearch 是 OpusClip 推出的 AI 視頻搜索工具,是專業創作者和企業的“定制 AI 大腦”,OpusSearch 能讓用戶快速搜索并再利用視頻庫中的任何內容,可按主題...
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
WebThinker
WebThinker是中國人民大學、北京智源人工智能研究院和華為泊松實驗室等機構提出的深度研究智能體。WebThinker賦能大型推理模型(LRMs)在推理過程中自主進行...
Smart PDFs
Smart PDFs 是免費開源的 AI 驅動 PDF 文檔總結工具,能快速將 PDF 文檔中的關鍵信息整理為清晰的章節式總結,支持學術論文、行業報告或技術文檔,能在數秒內...