標簽:圖像識別
LLaVA-o1:開源視覺語言模型助力智能理解與生成內容
LLaVA-o1是北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院以及理海大學(Lehigh University)組成的研究團隊推出的開源視覺語言模型,基于Llama-3.2-Vision...
眾影AI:智能動畫創作:從劇本與音頻到視覺作品的自動生成
眾影AI是AI視頻生成工具,專注于輕動畫創作。基于自研的大模型自動分析劇本或音頻,能一鍵生成角色表演,平均1分鐘內完成視頻制作。適于多種創作場景,如夫妻...
Vision Search Assistant:結合視覺語言模型與網絡代理搜索技術的開源框架研究
Vision Search Assistant(VSA)是結合視覺語言模型(VLMs)和網絡代理的框架,提升模型對未知視覺內容的理解能力。基于互聯網檢索,使VLMs處理和回答有關未...
什么是深度學習(Deep Learning)
深度學習(Deep Learning)是機器學習的一個子集,本文介紹了什么是深度學習、深度學習的工作原理、深度學習與機器學習的區別、深度學習的開發框架以及深度學...
什么是神經網絡(Neural Network)
神經網絡(Neural Network)作為人工智能中的一種計算模型,是受人腦啟發的一種機器學習類型。本文介紹了其定義、工作原理、類型、優勢、局限和其應用場景。
Screenshot to Code
Sscreenshot to Code是一個開源的項目,利用人工智能技術(GPT-4V 和 DALL·E 3)將用戶的屏幕截圖轉換為前端網頁代碼。項目的核心功能是自動化網頁設計的編碼...
什么是計算機視覺(Computer Vision)
計算機視覺(Computer Vision)是人工智能的一個關鍵分支,專注于使機器能夠像人類一樣解釋和理解視覺信息。它涉及圖像和視頻的獲取、處理、分析以及從這些數據...
粵公網安備 44011502001135號