AI項目和框架
MoshiVis
MoshiVis 是 Kyutai 推出的開源多模態(tài)語音模型,基于 Moshi 實時對話語音模型開發(fā),增加了視覺輸入功能。能實現(xiàn)圖像的自然、實時語音交互,將語音和視覺信息...
BlockDance
BlockDance 是復(fù)旦大學(xué)聯(lián)合字節(jié)跳動智能創(chuàng)作團隊推出的用在加速擴散模型的新方法。BlockDance 基于識別重用相鄰時間步中結(jié)構(gòu)相似的時空特征(STSS),減少冗...
Reve Image
Reve Image 是 Reve 推出的全新 AI 圖像生成模型。專注于提升美學(xué)表現(xiàn)、精確的提示遵循能力以及出色的排版設(shè)計,能生成高質(zhì)量的視覺作品。模型在生成圖像時展...
LongCat
LongCat(龍貓)是美團自主研發(fā)的生成式大語言模型,通過人工智能技術(shù)提升公司內(nèi)部工作效率和創(chuàng)新能力。模型具備強大的多模態(tài)能力,能處理文本、圖像等多種數(shù)...
Multi-Agent Orchestrator
Multi-Agent Orchestrator 是用于管理和協(xié)調(diào)多個智能代理(Agent)的框架。通過分類器識別用戶輸入的意圖,將請求分配給最適合的代理進行處理,通過對話存儲...
gpt-4o-mini-transcribe
gpt-4o-mini-transcribe 是 OpenAI 推出的語音轉(zhuǎn)文本模型,gpt-4o-transcribe的精簡版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架構(gòu),用知識蒸餾技術(shù)從大...
gpt-4o-transcribe
gpt-4o-transcribe是 OpenAI 推出的高性能語音轉(zhuǎn)文本模型。基于最新的語音模型架構(gòu),用海量多樣化音頻數(shù)據(jù)訓(xùn)練,精準(zhǔn)捕捉語音細(xì)微差別,顯著降低單詞錯誤率(...