標簽:圖像識別

LLaVA-o1:開源視覺語言模型助力智能理解與生成內容

LLaVA-o1是北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院以及理海大學(Lehigh University)組成的研究團隊推出的開源視覺語言模型,基于Llama-3.2-Vision...
閱讀原文

一加 13:全面體驗,顛覆你的手機認知!

三年之期已到,一加重新定義一加。
閱讀原文

眾影AI:智能動畫創作:從劇本與音頻到視覺作品的自動生成

眾影AI是AI視頻生成工具,專注于輕動畫創作。基于自研的大模型自動分析劇本或音頻,能一鍵生成角色表演,平均1分鐘內完成視頻制作。適于多種創作場景,如夫妻...
閱讀原文

Vision Search Assistant:結合視覺語言模型與網絡代理搜索技術的開源框架研究

Vision Search Assistant(VSA)是結合視覺語言模型(VLMs)和網絡代理的框架,提升模型對未知視覺內容的理解能力。基于互聯網檢索,使VLMs處理和回答有關未...
閱讀原文

什么是深度學習(Deep Learning)

深度學習(Deep Learning)是機器學習的一個子集,本文介紹了什么是深度學習、深度學習的工作原理、深度學習與機器學習的區別、深度學習的開發框架以及深度學...
閱讀原文

什么是神經網絡(Neural Network)

神經網絡(Neural Network)作為人工智能中的一種計算模型,是受人腦啟發的一種機器學習類型。本文介紹了其定義、工作原理、類型、優勢、局限和其應用場景。
閱讀原文

AI初創公司融資數據庫

AI工具集推出的AI初創公司融資數據庫,通過該頁面你可以獲取人工智能行業最新的融資數據和資訊,為投資者、創業者、研究人員和AI愛好者提供關于AI創業公司融...
閱讀原文

Screenshot to Code

Sscreenshot to Code是一個開源的項目,利用人工智能技術(GPT-4V 和 DALL·E 3)將用戶的屏幕截圖轉換為前端網頁代碼。項目的核心功能是自動化網頁設計的編碼...
閱讀原文

BrushNet

BrushNet是由騰訊PCG部門的ARC實驗室與香港大學的研究人員推出的一個基于擴散模型的即插即用的圖像照片修復(Inpainting)模型,通過分解的雙分支架構來有效...
閱讀原文

Butterflies AI

Butterflies AI是一個有趣的AI社交平臺,支持用戶定制具有個性和情感的AI角色,稱為"蝴蝶",AI虛擬角色能在平臺上自動發布動態和互動。
閱讀原文

Omages

Omages是一個開源的3D模型生成項目,基于圖像擴散技術將3D形狀的幾何和紋理信息編碼進64x64像素的2D圖像中,從而簡化3D建模流程。
閱讀原文

Qwen2-VL

Qwen2-VL是阿里巴巴達摩院開源的視覺多模態AI模型,具備高級圖像和視頻理解能力。Qwen2-VL支持多種語言,能處理不同分辨率和長寬比的圖片,實時分析動態視頻...
閱讀原文

什么是計算機視覺(Computer Vision)

計算機視覺(Computer Vision)是人工智能的一個關鍵分支,專注于使機器能夠像人類一樣解釋和理解視覺信息。它涉及圖像和視頻的獲取、處理、分析以及從這些數據...
閱讀原文

ImageBind

ImageBind是Meta公司推出的開源多模態AI模型,將文本、音頻、視覺、溫度和運動數據等六種不同類型的信息整合到一個統一的嵌入空間中。模型通過圖像模態作為橋...
閱讀原文

Myimg AI

Myimg AI是Deang.ltd公司開發的AI卡通化工具,能將用戶的照片快速轉化為海賊王風格的卡通畫。基于先進的人工智能技術,為用戶提供了一種簡單而有趣的方式,來...
閱讀原文