標簽:內容推薦

Clapper

Clapper 是一款免費開源的可視化AI視頻編輯工具,由 HuggingFace 的AI前端工程師 Julian Bilcke 開發。集成多種生成式 AI 技術,用戶通過交互式、迭代和直觀...
閱讀原文

去去去

去去去是一個AI在線去除圖片和文檔中水印工具,去去去支持多種水印類型,包括文本、圖像、透明、全頁、頁眉頁腳、重復以及可編輯或不可編輯水印。
閱讀原文

VideoLLaMB

VideoLLaMB 是一種創新的長視頻理解框架,通過引入記憶橋接層和遞歸記憶令牌來處理視頻數據,確保在分析時不丟失關鍵視覺信息。模型特別設計用于理解長時間視...
閱讀原文

M2UGen

M2UGen是先進的多模態音樂理解和生成框架,由騰訊PCG ARC實驗室與新加坡國立大學聯合推出。結合了大型語言模型(LLM)的能力,能處理包括文本、圖像、視頻和...
閱讀原文

FineVideo

FineVideo是由Hugging Face推出的一個大型多模態視頻數據集,專注于視頻理解領域中的復雜任務,如情緒分析、故事敘述和媒體編輯。FineVideo包含超過43,000個Y...
閱讀原文

pipio

pipio是視頻自動AI配音工具,能保留原始聲音的同時進行視頻翻譯,精確匹配說話者的唇部運動,使新語言的配音看起來自然無痕。pipio口型匹配技術提升33%、零損...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

Docling

Docling是開源的文檔解析和轉換工具,能高效地將多種格式的文檔(包括PDF、DOCX、PPTX、圖片和HTML)解析,導出為Markdown或JSON格式。Docling支持高級PDF理...
閱讀原文

HourVideo

HourVideo是斯坦福大學李飛飛和吳佳俊團隊推出的長視頻理解基準數據集,包含500個第一人稱視角視頻,時長20至120分鐘,覆蓋77種日常活動,能評估多模態模型對...
閱讀原文
123