標(biāo)簽:圖像識(shí)別

眾影AI:智能動(dòng)畫(huà)創(chuàng)作:從劇本與音頻到視覺(jué)作品的自動(dòng)生成

眾影AI是AI視頻生成工具,專注于輕動(dòng)畫(huà)創(chuàng)作?;谧匝械拇竽P妥詣?dòng)分析劇本或音頻,能一鍵生成角色表演,平均1分鐘內(nèi)完成視頻制作。適于多種創(chuàng)作場(chǎng)景,如夫妻...
閱讀原文

Vision Search Assistant:結(jié)合視覺(jué)語(yǔ)言模型與網(wǎng)絡(luò)代理搜索技術(shù)的開(kāi)源框架研究

Vision Search Assistant(VSA)是結(jié)合視覺(jué)語(yǔ)言模型(VLMs)和網(wǎng)絡(luò)代理的框架,提升模型對(duì)未知視覺(jué)內(nèi)容的理解能力?;诨ヂ?lián)網(wǎng)檢索,使VLMs處理和回答有關(guān)未...
閱讀原文

什么是深度學(xué)習(xí)(Deep Learning)

深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)的一個(gè)子集,本文介紹了什么是深度學(xué)習(xí)、深度學(xué)習(xí)的工作原理、深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的區(qū)別、深度學(xué)習(xí)的開(kāi)發(fā)框架以及深度學(xué)...
閱讀原文

什么是神經(jīng)網(wǎng)絡(luò)(Neural Network)

神經(jīng)網(wǎng)絡(luò)(Neural Network)作為人工智能中的一種計(jì)算模型,是受人腦啟發(fā)的一種機(jī)器學(xué)習(xí)類(lèi)型。本文介紹了其定義、工作原理、類(lèi)型、優(yōu)勢(shì)、局限和其應(yīng)用場(chǎng)景。
閱讀原文

AI初創(chuàng)公司融資數(shù)據(jù)庫(kù)

AI工具集推出的AI初創(chuàng)公司融資數(shù)據(jù)庫(kù),通過(guò)該頁(yè)面你可以獲取人工智能行業(yè)最新的融資數(shù)據(jù)和資訊,為投資者、創(chuàng)業(yè)者、研究人員和AI愛(ài)好者提供關(guān)于AI創(chuàng)業(yè)公司融...
閱讀原文

Screenshot to Code

Sscreenshot to Code是一個(gè)開(kāi)源的項(xiàng)目,利用人工智能技術(shù)(GPT-4V 和 DALL·E 3)將用戶的屏幕截圖轉(zhuǎn)換為前端網(wǎng)頁(yè)代碼。項(xiàng)目的核心功能是自動(dòng)化網(wǎng)頁(yè)設(shè)計(jì)的編碼...
閱讀原文

BrushNet

BrushNet是由騰訊PCG部門(mén)的ARC實(shí)驗(yàn)室與香港大學(xué)的研究人員推出的一個(gè)基于擴(kuò)散模型的即插即用的圖像照片修復(fù)(Inpainting)模型,通過(guò)分解的雙分支架構(gòu)來(lái)有效...
閱讀原文

Butterflies AI

Butterflies AI是一個(gè)有趣的AI社交平臺(tái),支持用戶定制具有個(gè)性和情感的AI角色,稱為"蝴蝶",AI虛擬角色能在平臺(tái)上自動(dòng)發(fā)布動(dòng)態(tài)和互動(dòng)。
閱讀原文

Omages

Omages是一個(gè)開(kāi)源的3D模型生成項(xiàng)目,基于圖像擴(kuò)散技術(shù)將3D形狀的幾何和紋理信息編碼進(jìn)64x64像素的2D圖像中,從而簡(jiǎn)化3D建模流程。
閱讀原文

Qwen2-VL

Qwen2-VL是阿里巴巴達(dá)摩院開(kāi)源的視覺(jué)多模態(tài)AI模型,具備高級(jí)圖像和視頻理解能力。Qwen2-VL支持多種語(yǔ)言,能處理不同分辨率和長(zhǎng)寬比的圖片,實(shí)時(shí)分析動(dòng)態(tài)視頻...
閱讀原文

什么是計(jì)算機(jī)視覺(jué)(Computer Vision)

計(jì)算機(jī)視覺(jué)(Computer Vision)是人工智能的一個(gè)關(guān)鍵分支,專注于使機(jī)器能夠像人類(lèi)一樣解釋和理解視覺(jué)信息。它涉及圖像和視頻的獲取、處理、分析以及從這些數(shù)據(jù)...
閱讀原文

ImageBind

ImageBind是Meta公司推出的開(kāi)源多模態(tài)AI模型,將文本、音頻、視覺(jué)、溫度和運(yùn)動(dòng)數(shù)據(jù)等六種不同類(lèi)型的信息整合到一個(gè)統(tǒng)一的嵌入空間中。模型通過(guò)圖像模態(tài)作為橋...
閱讀原文

Myimg AI

Myimg AI是Deang.ltd公司開(kāi)發(fā)的AI卡通化工具,能將用戶的照片快速轉(zhuǎn)化為海賊王風(fēng)格的卡通畫(huà)。基于先進(jìn)的人工智能技術(shù),為用戶提供了一種簡(jiǎn)單而有趣的方式,來(lái)...
閱讀原文

Comic Translate

Comic Translate 是一個(gè)開(kāi)源的漫畫(huà)翻譯工具,由開(kāi)發(fā)者 ogkalu2 推出。幫助用戶自動(dòng)翻譯全球各地的漫畫(huà),支持英語(yǔ)、韓語(yǔ)、日語(yǔ)、法語(yǔ)、簡(jiǎn)體中文、繁體中文、俄...
閱讀原文

GroundingBooth

GroundingBooth 是一個(gè)先進(jìn)的文本到圖像定制框架,由華盛頓大學(xué)圣路易斯分校、Adobe和普渡大學(xué)的研究團(tuán)隊(duì)共同推出?;谖谋?圖像對(duì)齊模塊和遮罩交叉注意力層...
閱讀原文