AI項(xiàng)目和框架
LLaMA-Omni
LLaMA-Omni 是中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中國(guó)科學(xué)院大學(xué)研究者推出的新型模型架構(gòu),用于實(shí)現(xiàn)與大型語(yǔ)言模型(LLM)的低延遲、高質(zhì)量語(yǔ)音交互。通過(guò)集成預(yù)訓(xùn)...
GOT-OCR2.0
GOT-OCR 2.0是一種先進(jìn)的光學(xué)字符識(shí)別(OCR)模型,推動(dòng)OCR技術(shù)進(jìn)入2.0時(shí)代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長(zhǎng)上下文解碼器組成,能處理包括文本、...
豆包PixelDance
豆包PixelDance是字節(jié)跳動(dòng)最新推出的AI視頻生成模型,采用DiT結(jié)構(gòu),支持文生視頻和圖生視頻。它能理解復(fù)雜指令,生成長(zhǎng)達(dá)10秒的連貫視頻片段,涵蓋多主體交互...
PortraitGen
PortraitGen是中國(guó)科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)推出的一款A(yù)I人像視頻編輯工具。基于3D高斯濺射技術(shù)和神經(jīng)高斯紋理機(jī)制,將2D人像視頻轉(zhuǎn)換為4D高斯場(chǎng),實(shí)現(xiàn)高質(zhì)量的3D...
粵公網(wǎng)安備 44011502001135號(hào)