AI項目和框架

CapsWriter-Offline

CapsWriter-Offline是一款高效的PC端離線語音輸入和字幕轉錄工具,支持用戶通過簡單的按鍵操作實現實時語音轉文字。軟件適合快速記錄和轉寫大量語音信息的場...
閱讀原文

HelloBench

HelloBench是一個用于評估大型語言模型(LLMs)長文本生成能力的開源基準測試。HelloBench包含五個基于布魯姆分類法的子任務:開放式問答、摘要、聊天、文本...
閱讀原文

VirtualWife

VirtualWife是一個創新的虛擬數字人項目,專注于開發具有AI的虛擬角色。角色設計用于在B站等直播平臺上進行互動,提供娛樂和信息。通過集成先進的AI技術,如...
閱讀原文

MMSearch

MMSearch是一個用于評估大型多模態模型(LMMs)作為AI搜索引擎能力的基準測試。包括一個MMSearch-Engine框架和MMSearch測試集,后者包含300個問題,涵蓋14個...
閱讀原文

anime.gf

Anime.gf 是一個開源的本地應用程序,支持用戶創建和互動自己的虛擬角色。工具提供一個用戶友好的界面,用戶與各種具有獨特個性和語言風格的虛擬角色進行交流。
閱讀原文

ChopperBot

ChopperBot是一款智能化的直播視頻剪輯和發布機器人,ChopperBot能自動化地管理和分發直播內容。支持多個流行直播平臺,如斗魚、虎牙、B站、抖音和Twitch等,...
閱讀原文

FineZip

FineZip 是一種基于大型語言模型(LLMs)的無損文本壓縮系統,結合在線記憶和動態上下文大小技術,提高文本壓縮的速度和效率。在線記憶指的是在壓縮前對模型...
閱讀原文

Depth Pro

Depth Pro是蘋果公司開發的一種先進的單目深度估計模型,能從單個2D圖像快速生成高分辨率的3D深度圖。模型不僅速度快,只需0.3秒,而且提供度量級別的深度信...
閱讀原文

VideoLingo

VideoLingo 是一款一鍵全自動視頻翻譯工具,能將視頻進行字幕切割、翻譯、對齊和配音,最終生成 Netflix 級別的字幕和配音。VideoLingo 基于自然語言處理(NL...
閱讀原文

CatVTON

CatVTON是一種先進的虛擬試衣技術,由中山大學和Pixocial聯合推出。基于輕量化的架構和高效的訓練策略,實現高質量的虛擬試衣效果。CatVTON的特點是只需要極...
閱讀原文

ScribbleDiff

ScribbleDiff是一種先進的文本到圖像生成技術,基于用戶簡單涂鴉的視覺提示指導圖像的生成過程。通過分析涂鴉確保生成的圖像中的對象方向與用戶涂鴉的方向一...
閱讀原文

Boow-VTON

Boow-VTON是阿里巴巴推出的一種先進的虛擬試衣技術。能在野外場景中實現高質量的虛擬試衣效果,無需依賴精確的遮罩或修復工作。通過有效的數據增強方法,基于...
閱讀原文

LiveKit Agents

LiveKit Agents 是一個強大的框架,用于創建能實時通過語音、視頻和數據與用戶互動的多模態AI代理。框架支持 Python 編程,簡化開發過程,支持開發者輕松集成...
閱讀原文

Matryoshka Diffusion Models

Matryoshka Diffusion Models(MDM)是蘋果公司推出的一種創新的擴散模型,主要用于生成高分辨率圖像和視頻。MDM通過多分辨率擴散過程,在不同尺度上同時進行...
閱讀原文

IFAdapter

IFAdapter是一種新型的文本到圖像生成模型,由騰訊和新加坡國立大學共同推出。提升生成含有多個實例的圖像時的位置和特征準確性。傳統模型在處理多實例圖像時...
閱讀原文