LLaMA-Omni
LLaMA-Omni 是中國科學(xué)院計算技術(shù)研究所和中國科學(xué)院大學(xué)研究者推出的新型模型架構(gòu),用于實現(xiàn)與大型語言模型(LLM)的低延遲、高質(zhì)量語音交互。通過集成預(yù)訓(xùn)...
GOT-OCR2.0
GOT-OCR 2.0是一種先進(jìn)的光學(xué)字符識別(OCR)模型,推動OCR技術(shù)進(jìn)入2.0時代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長上下文解碼器組成,能處理包括文本、...
豆包PixelDance
豆包PixelDance是字節(jié)跳動最新推出的AI視頻生成模型,采用DiT結(jié)構(gòu),支持文生視頻和圖生視頻。它能理解復(fù)雜指令,生成長達(dá)10秒的連貫視頻片段,涵蓋多主體交互...
PortraitGen
PortraitGen是中國科學(xué)技術(shù)大學(xué)研究團(tuán)隊推出的一款A(yù)I人像視頻編輯工具。基于3D高斯濺射技術(shù)和神經(jīng)高斯紋理機(jī)制,將2D人像視頻轉(zhuǎn)換為4D高斯場,實現(xiàn)高質(zhì)量的3D...