標(biāo)簽:多語(yǔ)言支持
WhisperChain
WhisperChain 是開源的語(yǔ)音識(shí)別工具,基于語(yǔ)音輸入提升工作效率。WhisperChain用 Whisper.cpp 實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音識(shí)別,將語(yǔ)音轉(zhuǎn)換為文本,基于 LangChain 對(duì)文本進(jìn)...
T2V-01-Director
T2V-01-Director 是海螺AI(MiniMax)推出的文本到視頻生成工具,專注于通過(guò)自然語(yǔ)言指令實(shí)現(xiàn)精準(zhǔn)的鏡頭運(yùn)動(dòng)控制。支持用戶在生成視頻時(shí),通過(guò)簡(jiǎn)單的文字描述...
HippoRAG 2
HippoRAG 2是俄亥俄州立大學(xué)推出的檢索增強(qiáng)生成(RAG)框架,解決現(xiàn)有RAG系統(tǒng)在模擬人類長(zhǎng)期記憶動(dòng)態(tài)性和關(guān)聯(lián)性方面的局限性。HippoRAG 2基于個(gè)性化PageRank...
Baichuan-Audio
Baichuan-Audio是百川智能推出的端到端音頻大語(yǔ)言模型,支持無(wú)縫集成音頻理解和生成功能,實(shí)現(xiàn)支持高質(zhì)量、可控的實(shí)時(shí)中英雙語(yǔ)對(duì)話。Baichuan-Audio基于多碼...
R1-Onevision
R1-Onevision 是開源的多模態(tài)大語(yǔ)言模型,專注于復(fù)雜視覺(jué)推理任務(wù)。基于 Qwen2.5-VL 微調(diào)而成,通過(guò)整合視覺(jué)和文本數(shù)據(jù),能精準(zhǔn)地進(jìn)行多模態(tài)信息解釋。在數(shù)學(xué)...
Phi-4-Mini
Phi-4-Mini 是微軟 Phi-4 系列中最新推出的專注于文本任務(wù)的小型語(yǔ)言模型,參數(shù)量為 38 億。基于密集的解碼器-only Transformer 架構(gòu),結(jié)合分組查詢注意力(G...