標(biāo)簽:多語言支持

AgiBot Digital World

AgiBot Digital World 是智元機(jī)器人推出的高保真機(jī)器人仿真框架,為機(jī)器人操作技能研究與應(yīng)用提供高效支持。AgiBot Digital World集成海量逼真的三維資產(chǎn)、多...
閱讀原文

Spark-TTS

Spark-TTS 是SparkAudio 團(tuán)隊(duì)開源的基于大型語言模型(LLM)的高效文本轉(zhuǎn)語音(TTS)工具, 無需額外的生成模型,直接從 LLM 預(yù)測(cè)的編碼中重建音頻,實(shí)現(xiàn)零樣...
閱讀原文

ViDoRAG

ViDoRAG是阿里巴巴通義實(shí)驗(yàn)室聯(lián)合中國科學(xué)技術(shù)大學(xué)和上海交通大學(xué)推出的視覺文檔檢索增強(qiáng)生成框架?;诙嘀悄荏w協(xié)作和動(dòng)態(tài)迭代推理,解決傳統(tǒng)方法在處理復(fù)雜...
閱讀原文

Shandu

Shandu 是開源的 AI 研究自動(dòng)化工具,結(jié)合了 LangChain 和 LangGraph 技術(shù),能自動(dòng)化地進(jìn)行多層次信息挖掘和分析,生成結(jié)構(gòu)化的研究報(bào)告。Shandu 的核心功能...
閱讀原文

Mochii AI

Mochii AI 是多功能的智能AI助手,通過先進(jìn)的人工智能技術(shù)提升用戶的生產(chǎn)力和創(chuàng)造力。支持多種高級(jí)AI模型,如GPT-4、Claude 3.5和Gemini,能提供智能對(duì)話、語...
閱讀原文

WhisperChain

WhisperChain 是開源的語音識(shí)別工具,基于語音輸入提升工作效率。WhisperChain用 Whisper.cpp 實(shí)現(xiàn)實(shí)時(shí)語音識(shí)別,將語音轉(zhuǎn)換為文本,基于 LangChain 對(duì)文本進(jìn)...
閱讀原文

T2V-01-Director

T2V-01-Director 是海螺AI(MiniMax)推出的文本到視頻生成工具,專注于通過自然語言指令實(shí)現(xiàn)精準(zhǔn)的鏡頭運(yùn)動(dòng)控制。支持用戶在生成視頻時(shí),通過簡單的文字描述...

Mahilo

Mahilo 是靈活的多智能體框架,支持創(chuàng)建與人類互動(dòng)的多智能體系統(tǒng)。Mahilo支持實(shí)時(shí)語音和文本通信,智能體之間能自主共享上下文和信息,保持人類對(duì)交互的監(jiān)督...
閱讀原文

Mobius

Mobius 是先進(jìn)的無縫循環(huán)視頻生成技術(shù),能通過人工智能算法從文本描述生成無限循環(huán)的視頻內(nèi)容。核心在于強(qiáng)大的AI模型,能自動(dòng)識(shí)別視頻中的關(guān)鍵元素并生成平滑...
閱讀原文

HippoRAG 2

HippoRAG 2是俄亥俄州立大學(xué)推出的檢索增強(qiáng)生成(RAG)框架,解決現(xiàn)有RAG系統(tǒng)在模擬人類長期記憶動(dòng)態(tài)性和關(guān)聯(lián)性方面的局限性。HippoRAG 2基于個(gè)性化PageRank...
閱讀原文

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音頻大語言模型,支持無縫集成音頻理解和生成功能,實(shí)現(xiàn)支持高質(zhì)量、可控的實(shí)時(shí)中英雙語對(duì)話。Baichuan-Audio基于多碼...
閱讀原文

Pika 2.2

Pika 2.2 是 Pika Labs 推出的升級(jí)版 AI 視頻生成工具,基于深度學(xué)習(xí)技術(shù),能將圖片或文字提示轉(zhuǎn)化為高質(zhì)量的視頻內(nèi)容。與前代版本相比,Pika 2.2 在功能和性...
閱讀原文

GPT-4.5

GPT-4.5 是 OpenAI 推出的最新大型語言模型,是目前規(guī)模最大、性能最強(qiáng)的聊天模型?;跀U(kuò)展無監(jiān)督學(xué)習(xí),提升模式識(shí)別、知識(shí)廣度和創(chuàng)意生成能力,減少了幻覺...
閱讀原文

3FS

3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系統(tǒng),專為AI訓(xùn)練和推理任務(wù)設(shè)計(jì)。3FS用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)技術(shù),基于分離式架構(gòu)聚合數(shù)千個(gè)SS...
閱讀原文

R1-Onevision

R1-Onevision 是開源的多模態(tài)大語言模型,專注于復(fù)雜視覺推理任務(wù)?;?Qwen2.5-VL 微調(diào)而成,通過整合視覺和文本數(shù)據(jù),能精準(zhǔn)地進(jìn)行多模態(tài)信息解釋。在數(shù)學(xué)...
閱讀原文
1141516171862