AI項(xiàng)目和框架

MIMO

MIMO是阿里巴巴集團(tuán)智能計(jì)算研究所推出的可控角色視頻合成的新型AI框架,基于空間分解建模技術(shù),將2D視頻轉(zhuǎn)換為3D空間代碼,實(shí)現(xiàn)對(duì)角色、動(dòng)作和場(chǎng)景的精確控...
閱讀原文

豆包AI視頻模型

豆包AI視頻模型是字節(jié)跳動(dòng)推出的兩款A(yù)I視頻生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT結(jié)構(gòu),擅長(zhǎng)理解復(fù)雜指令,生成連貫、多主體交互的視頻片段...
閱讀原文

美圖奇想大模型

美圖奇想大模型(MiracleVision)是美圖公司推出的一款A(yù)I視覺(jué)大模型,專注于美學(xué)創(chuàng)作,包括東方美學(xué)、人像和商業(yè)設(shè)計(jì)等。模型完成了視頻生成能力的全面升級(jí),...
閱讀原文

SafeEar

SafeEar是由浙江大學(xué)和清華大學(xué)聯(lián)合開(kāi)發(fā)的AI音頻偽造檢測(cè)框架,保護(hù)用戶隱私的同時(shí)檢測(cè)音頻偽造。采用基于神經(jīng)音頻編解碼器的解耦模型,分離語(yǔ)音的聲學(xué)信息和...
閱讀原文

PDF2Audio

PDF2Audio 是一個(gè)開(kāi)源工具,能將 PDF 文檔轉(zhuǎn)換成音頻內(nèi)容,適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本,通過(guò)文本到語(yǔ)音技術(shù)轉(zhuǎn)化為音頻。
閱讀原文

GraphReasoning

GraphReasoning是一種基于人工智能技術(shù)將大量科學(xué)論文轉(zhuǎn)換成知識(shí)圖譜的方法。通過(guò)結(jié)構(gòu)化分析,計(jì)算節(jié)點(diǎn)度、識(shí)別社區(qū)及其連通性,評(píng)估關(guān)鍵節(jié)點(diǎn)的中心性,來(lái)揭...
閱讀原文

Comic Translate

Comic Translate 是一個(gè)開(kāi)源的漫畫翻譯工具,由開(kāi)發(fā)者 ogkalu2 推出。幫助用戶自動(dòng)翻譯全球各地的漫畫,支持英語(yǔ)、韓語(yǔ)、日語(yǔ)、法語(yǔ)、簡(jiǎn)體中文、繁體中文、俄...
閱讀原文

PearAI

PearAI 是一個(gè)開(kāi)源的 AI 驅(qū)動(dòng)的代碼編輯器,基于 Visual Studio Code (VSCode) 開(kāi)發(fā)。PearAI 集成AI技術(shù),減少編程工作量提高開(kāi)發(fā)效率。PearAI 支持開(kāi)發(fā)者直...
閱讀原文

EzAudio

EzAudio是由約翰霍普金斯大學(xué)和騰訊AI實(shí)驗(yàn)室共同推出的一款文本到音頻(Text-to-Audio, T2A)生成模型。基于一種高效的擴(kuò)散變換器技術(shù),用在從文本提示生成高...
閱讀原文

FLUX-Controlnet-Inpainting

FLUX-Controlnet-Inpainting 是阿里媽媽(Alibaba's Alimama)推出的一款圖像修復(fù)工具,融合 ControlNet 和 FLUX.1-dev 技術(shù)。工具根據(jù)用戶指定的掩碼區(qū)...
閱讀原文

Rope

Rope是一款開(kāi)源的AI換臉工具,基于insightface的inswapper_128模型構(gòu)建,提供一個(gè)用戶友好的圖形界面。用戶通過(guò)上傳圖片或視頻,在幾秒鐘內(nèi)完成換臉操作,效...
閱讀原文

Westlake-Omni

Westlake-Omni 是西湖心辰推出的全球首個(gè)開(kāi)源中文情感端到端語(yǔ)音交互大模型。模型采用離散表示法,統(tǒng)一文本和語(yǔ)音模態(tài)的處理,特別強(qiáng)調(diào)實(shí)時(shí)性,快速響應(yīng)用戶...
閱讀原文

AutoGen Studio

AutoGen Studio 是微軟研究院推出的一款開(kāi)源界面工具,旨在簡(jiǎn)化多智能體系統(tǒng)的構(gòu)建、調(diào)試和評(píng)估過(guò)程。AutoGen Studio提供一個(gè)基于 Web 的交互式界面和 Python...
閱讀原文

IDIFY

IDIFY是一款免費(fèi)開(kāi)源的在線證件照生成工具,通過(guò)AI技術(shù)實(shí)現(xiàn)自動(dòng)摳圖,幫助用戶快速生成符合標(biāo)準(zhǔn)的證件照。用戶只需在瀏覽器中上傳照片,選擇尺寸和背景色,可...
閱讀原文

Emu3

Emu3是由北京智源人工智能研究院推出的一款原生多模態(tài)世界模型,采用智源自研的多模態(tài)自回歸技術(shù)路徑,在圖像、視頻、文字上聯(lián)合訓(xùn)練,使模型具備原生多模態(tài)...
閱讀原文