AI項(xiàng)目和框架

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本轉(zhuǎn)語音(TTS)模型,基于超過200萬小時的音頻數(shù)據(jù)訓(xùn)練,支持13種語言。采用雙自回歸(Dual-AR)架構(gòu)和強(qiáng)化學(xué)習(xí)與人類反饋...
閱讀原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音頻編輯模型,基于擴(kuò)散模型技術(shù),專門用在音頻的精細(xì)編輯和修復(fù)。模型將音頻編碼為離散的標(biāo)記序列,對需要修改的部分進(jìn)行掩...

Auto Think

Auto Think是快手Kwaipilot團(tuán)隊(duì)開源的KwaiCoder-AutoThink-preview自動思考大模型,模型針對深度思考大模型存在的“過度思考”問題進(jìn)行了深入研究,提出了一種...
閱讀原文

Firesearch

Firesearch 是 Mendable AI 團(tuán)隊(duì)推出的 AI 驅(qū)動的深度研究工具。基于 Firecrawl 多源網(wǎng)絡(luò)內(nèi)容提取技術(shù),結(jié)合 OpenAI GPT-4o 的搜索規(guī)劃和內(nèi)容生成能力,將復(fù)...
閱讀原文

OCode

OCode 是終端原生 AI 編程助手,為開發(fā)者提供深度代碼庫智能和自動任務(wù)執(zhí)行功能。與本地 Ollama 模型無縫集成,將企業(yè)級 AI 輔助直接融入開發(fā)流程中。終端原...
閱讀原文

Jaaz

Jaaz 是開源的 AI 設(shè)計(jì)工具,是 Lovart 的本地免費(fèi)替代品。具備強(qiáng)大的 AI 設(shè)計(jì)能力,能智能生成設(shè)計(jì)提示,批量生成圖像、海報(bào)、故事板等。Jaaz 支持 Ollama、...
閱讀原文

VRAG-RL

VRAG-RL是阿里巴巴通義大模型團(tuán)隊(duì)推出的視覺感知驅(qū)動的多模態(tài)RAG推理框架,專注于提升視覺語言模型(VLMs)在處理視覺豐富信息時的檢索、推理和理解能力。基...
閱讀原文

TrackVLA

TrackVLA是銀河通用推出的產(chǎn)品級端到端導(dǎo)航大模型。模型具備純視覺環(huán)境感知、語言指令驅(qū)動、自主推理和零樣本泛化能力,能實(shí)現(xiàn)從視覺感知到動作輸出的全鏈路...
閱讀原文

TEN VAD

TEN VAD 是高性能的實(shí)時語音活動檢測系統(tǒng),專為企業(yè)級應(yīng)用設(shè)計(jì)。TEN VAD能精確地檢測音頻流中的語音活動,具有低延遲、輕量級和高精度的特點(diǎn)。TEN VAD 基于先...
閱讀原文

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的實(shí)驗(yàn)性應(yīng)用,支持讓用戶在本地設(shè)備上體驗(yàn)和使用機(jī)器學(xué)習(xí)(ML)及生成式人工智能(GenAI)模型。應(yīng)用目前支持在 Android...
閱讀原文

從容大模型

從容大模型是云從科技推出的多模態(tài)AI模型。模型在國際權(quán)威評測平臺OpenCompass的多模態(tài)榜單中以80.7分登頂,超越谷歌、OpenAI等頂尖團(tuán)隊(duì)。
閱讀原文

DeepEyes

DeepEyes 是小紅書團(tuán)隊(duì)和西安交通大學(xué)聯(lián)合推出的多模態(tài)深度思考模型。基于端到端強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)類似 OpenAI o3 的“用圖思考”能力,無需依賴監(jiān)督微調(diào)(SFT)。...
閱讀原文

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的開源工具,用在研究大型語言模型的內(nèi)部工作機(jī)制。Circuit Tracer 基于生成歸因圖(attribution graphs)揭示模型在生成特...
閱讀原文

DGM

DGM(Darwin G?del Machine)是自改進(jìn)人工智能系統(tǒng),通過迭代修改自身代碼來提升性能。DGM從其維護(hù)的編碼代理檔案中選擇一個代理,基于基礎(chǔ)模型生成新版本,...
閱讀原文

SignGemma

SignGemma 是谷歌 DeepMind 團(tuán)隊(duì)推出的全球最強(qiáng)大的手語翻譯AI模型。專注于將美國手語(ASL)翻譯成英語文本,通過多模態(tài)訓(xùn)練方法,結(jié)合視覺數(shù)據(jù)和文本數(shù)據(jù),...
閱讀原文
13233343536155