AI項目和框架

美圖奇想大模型

美圖奇想大模型(MiracleVision)是美圖公司推出的一款AI視覺大模型,專注于美學創作,包括東方美學、人像和商業設計等。模型完成了視頻生成能力的全面升級,...
閱讀原文

SafeEar

SafeEar是由浙江大學和清華大學聯合開發的AI音頻偽造檢測框架,保護用戶隱私的同時檢測音頻偽造。采用基于神經音頻編解碼器的解耦模型,分離語音的聲學信息和...
閱讀原文

PDF2Audio

PDF2Audio 是一個開源工具,能將 PDF 文檔轉換成音頻內容,適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本,通過文本到語音技術轉化為音頻。
閱讀原文

GraphReasoning

GraphReasoning是一種基于人工智能技術將大量科學論文轉換成知識圖譜的方法。通過結構化分析,計算節點度、識別社區及其連通性,評估關鍵節點的中心性,來揭...
閱讀原文

Comic Translate

Comic Translate 是一個開源的漫畫翻譯工具,由開發者 ogkalu2 推出。幫助用戶自動翻譯全球各地的漫畫,支持英語、韓語、日語、法語、簡體中文、繁體中文、俄...
閱讀原文

PearAI

PearAI 是一個開源的 AI 驅動的代碼編輯器,基于 Visual Studio Code (VSCode) 開發。PearAI 集成AI技術,減少編程工作量提高開發效率。PearAI 支持開發者直...
閱讀原文

EzAudio

EzAudio是由約翰霍普金斯大學和騰訊AI實驗室共同推出的一款文本到音頻(Text-to-Audio, T2A)生成模型。基于一種高效的擴散變換器技術,用在從文本提示生成高...
閱讀原文

FLUX-Controlnet-Inpainting

FLUX-Controlnet-Inpainting 是阿里媽媽(Alibaba's Alimama)推出的一款圖像修復工具,融合 ControlNet 和 FLUX.1-dev 技術。工具根據用戶指定的掩碼區...
閱讀原文

Rope

Rope是一款開源的AI換臉工具,基于insightface的inswapper_128模型構建,提供一個用戶友好的圖形界面。用戶通過上傳圖片或視頻,在幾秒鐘內完成換臉操作,效...
閱讀原文

Westlake-Omni

Westlake-Omni 是西湖心辰推出的全球首個開源中文情感端到端語音交互大模型。模型采用離散表示法,統一文本和語音模態的處理,特別強調實時性,快速響應用戶...
閱讀原文

AutoGen Studio

AutoGen Studio 是微軟研究院推出的一款開源界面工具,旨在簡化多智能體系統的構建、調試和評估過程。AutoGen Studio提供一個基于 Web 的交互式界面和 Python...
閱讀原文

IDIFY

IDIFY是一款免費開源的在線證件照生成工具,通過AI技術實現自動摳圖,幫助用戶快速生成符合標準的證件照。用戶只需在瀏覽器中上傳照片,選擇尺寸和背景色,可...
閱讀原文

Emu3

Emu3是由北京智源人工智能研究院推出的一款原生多模態世界模型,采用智源自研的多模態自回歸技術路徑,在圖像、視頻、文字上聯合訓練,使模型具備原生多模態...
閱讀原文

CCI 3.0

CCI 3.0是智源研究院發布的一個大規模的中文互聯網語料庫,包含了1000GB的數據集和498GB的高質量子集CCI 3.0-HQ。該版本在數據規模上相較于CCI 2.0擴大了近一...
閱讀原文

MemFree

MemFree是一款開源的混合AI搜索引擎,通過整合多種AI模型和搜索引擎,提供高效、多樣化的搜索體驗。可以用文本、圖像、文件和網頁等多種方式進行搜索和提問,...
閱讀原文