AI項目和框架
GOT-OCR2.0
GOT-OCR 2.0是一種先進的光學字符識別(OCR)模型,推動OCR技術進入2.0時代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長上下文解碼器組成,能處理包括文本、...
豆包PixelDance
豆包PixelDance是字節跳動最新推出的AI視頻生成模型,采用DiT結構,支持文生視頻和圖生視頻。它能理解復雜指令,生成長達10秒的連貫視頻片段,涵蓋多主體交互...
PortraitGen
PortraitGen是中國科學技術大學研究團隊推出的一款AI人像視頻編輯工具。基于3D高斯濺射技術和神經高斯紋理機制,將2D人像視頻轉換為4D高斯場,實現高質量的3D...