MoshiVis
MoshiVis 是 Kyutai 推出的開源多模態(tài)語音模型,基于 Moshi 實時對話語音模型開發(fā),增加了視覺輸入功能。能實現(xiàn)圖像的自然、實時語音交互,將語音和視覺信息...
BlockDance
BlockDance 是復旦大學聯(lián)合字節(jié)跳動智能創(chuàng)作團隊推出的用在加速擴散模型的新方法。BlockDance 基于識別重用相鄰時間步中結構相似的時空特征(STSS),減少冗...
Reve Image
Reve Image 是 Reve 推出的全新 AI 圖像生成模型。專注于提升美學表現(xiàn)、精確的提示遵循能力以及出色的排版設計,能生成高質(zhì)量的視覺作品。模型在生成圖像時展...