Mercury Coder
Mercury Coder 是 Inception Labs 推出的首個擴散型大語言模型(dLLM),是 Mercury 系列中專門用在代碼生成的模型。Mercury Coder基于“從粗到細”的生成方式...
Browser Operator
Browser Operator 是 Opera 瀏覽器推出的 AI 驅動的智能代理工具,通過自然語言指令幫助用戶更高效地完成網頁瀏覽任務。用戶只需輸入簡單的指令,如“購買商品...
Mistral OCR
Mistral OCR 是 Mistral AI 推出的先進光學字符識別(OCR)工具,專為處理復雜文檔而設計。能全面理解文檔中的文本、圖像、表格和數學公式等元素,支持數千種...
Microsoft Dragon Copilot
Microsoft Dragon Copilot 是微軟推出的面向醫療行業的AI語音助手,幫助臨床醫生簡化臨床文檔處理、信息檢索和任務自動化。Microsoft Dragon Copilot 結合 Dr...
SpeciesNet
SpeciesNet 是 Google 開源的人工智能模型,通過分析相機陷阱拍攝的照片來識別動物物種。基于超過 6500 萬張圖像訓練而成,能識別超過 2000 種標簽,包括動物...
GaussianCity
GaussianCity 是南洋理工大學 S-Lab 團隊推出的高效無邊界3D城市生成框架,基于3D高斯繪制(3D-GS)技術。引入緊湊的 BEV-Point 表示方法,將場景的顯存(VRA...
Asyncflow v1.0
Asyncflow v1.0 是播客平臺 Podcastle 推出的 AI 文本轉語音模型。支持超過 450 種語音選項,能為文本內容生成高質量的語音朗讀,適用于多種語言和風格。
DiffRhythm
DiffRhythm 是西北工業大學與香港中文大學(深圳)聯合開發的端到端音樂生成工具,基于潛擴散模型(Latent Diffusion)技術,能快速生成包含人聲和伴奏的完整...
OmniAlign-V
OmniAlign-V 是上海交通大學、上海AI Lab、南京大學、復旦大學和浙江大學聯合推出的專為提升多模態大語言模型(MLLMs)與人類偏好的對齊能力設計的高質量數據...