AI項(xiàng)目和框架
Nanobrowser
Nanobrowser 是開源的 Chrome 擴(kuò)展工具,專注于 AI 驅(qū)動(dòng)的網(wǎng)頁自動(dòng)化。Nanobrowser基于多智能體系統(tǒng)實(shí)現(xiàn)復(fù)雜的網(wǎng)頁任務(wù),如信息提取、自動(dòng)化操作等。用戶用自...
DINO-XSeek
DINO-XSeek 是 IDEA 研究院推出的多模態(tài)目標(biāo)檢測模型,結(jié)合視覺感知和自然語言理解能力。DINO-XSeek基于復(fù)雜的語言描述精準(zhǔn)定位圖像中的目標(biāo),識(shí)別目標(biāo)的屬性...
URO-Bench
URO-Bench 是面向端到端語音對話模型(SDMs)的全面基準(zhǔn)測試工具。涵蓋了多語言、多輪對話、副語言信息等多維度任務(wù),全面評估語音對話模型的性能。
TicVoice 7.0
TicVoice 7.0 是出門問問推出的第七代高品質(zhì) TTS(語音合成)引擎,基于新一代語音生成模型 Spark-TTS 。TicVoice 7.0基于創(chuàng)新的 BiCodec 編碼方式,將語音分...
Mercury Coder
Mercury Coder 是 Inception Labs 推出的首個(gè)擴(kuò)散型大語言模型(dLLM),是 Mercury 系列中專門用在代碼生成的模型。Mercury Coder基于“從粗到細(xì)”的生成方式...
SpeciesNet
SpeciesNet 是 Google 開源的人工智能模型,通過分析相機(jī)陷阱拍攝的照片來識(shí)別動(dòng)物物種。基于超過 6500 萬張圖像訓(xùn)練而成,能識(shí)別超過 2000 種標(biāo)簽,包括動(dòng)物...
GaussianCity
GaussianCity 是南洋理工大學(xué) S-Lab 團(tuán)隊(duì)推出的高效無邊界3D城市生成框架,基于3D高斯繪制(3D-GS)技術(shù)。引入緊湊的 BEV-Point 表示方法,將場景的顯存(VRA...