標簽:內容推薦

M2UGen

M2UGen是先進的多模態音樂理解和生成框架,由騰訊PCG ARC實驗室與新加坡國立大學聯合推出。結合了大型語言模型(LLM)的能力,能處理包括文本、圖像、視頻和...
閱讀原文

FineVideo

FineVideo是由Hugging Face推出的一個大型多模態視頻數據集,專注于視頻理解領域中的復雜任務,如情緒分析、故事敘述和媒體編輯。FineVideo包含超過43,000個Y...
閱讀原文

pipio

pipio是視頻自動AI配音工具,能保留原始聲音的同時進行視頻翻譯,精確匹配說話者的唇部運動,使新語言的配音看起來自然無痕。pipio口型匹配技術提升33%、零損...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

Docling

Docling是開源的文檔解析和轉換工具,能高效地將多種格式的文檔(包括PDF、DOCX、PPTX、圖片和HTML)解析,導出為Markdown或JSON格式。Docling支持高級PDF理...
閱讀原文

HourVideo

HourVideo是斯坦福大學李飛飛和吳佳俊團隊推出的長視頻理解基準數據集,包含500個第一人稱視角視頻,時長20至120分鐘,覆蓋77種日常活動,能評估多模態模型對...
閱讀原文
123