標簽:圖像
跟著開源的InternVL,學習如何做自己的GPT-4V
隨著人工智能生成內容(AIGC)的快速發展,多模態大型語言模型(MLLM)在理解和生成結合視覺與語言的信息方面展現出巨大潛力。然而,現有的開源MLLM與商業模...
中山大學與聯想團隊發布 ConsistentID,單張照片即可成為百變超人
上傳一張個人照片就能瞬間變換身份,這不再是科幻片中的情節。最近,圖像生成技術經歷了顯著的進化,這是由基于擴散的, 文本到圖像大型模型的出現和進步驅動...
在線教程|圖靈獎得主Yann LeCun盛贊!小紅書開源InstantID,一張原圖即可定制多種風格寫真
作者:十九 編輯:李寶珠,三羊 來自小紅書的 95 后工程師聯合北大團隊發布了開源項目「InstantID」,只需上傳一張照片,就能輕松定制多種風格的 AI 寫真。不...
立即預約 Google I/O 2024 會議直播!百科詳解一夜爆火的全新神經網絡架構 KAN
? Google I/O 2024 Keynote 主題演講將于 5 月 15 日(下周三)凌晨 1 點舉行,屆時 HyperAI超神經會在視頻號和 B 站實時轉播,立即預約不錯過↓ ? 直播結束后...
ControlNet作者新作爆火:P照片換背景不求人,AI打光完美融入
·衡宇 發自 凹非寺量子位 | 公眾號 QbitAIControlNet作者新作,玩兒得人直呼過癮,剛開源就攬星1.2k。 用于操縱圖像照明效果的IC-Light,全稱lmposing Consis...
超分辨率專題 | 3 種方法、4 個教程、10 個數據集,一文 Get 核心知識點
作者:十九 編輯:李寶珠,三羊 超分辨率能夠克服或補償由于圖像采集系統、采集環境本身限制而導致的成像模糊、圖像質量低下等問題,提升圖像分辨率,為特征...
在線教程|二次元的福音!一鍵部署APISR,動漫畫質飛躍升級
作者:十九 編輯:李寶珠,三羊 APISR 不僅可以恢復并增強低質量、低分辨率的動漫圖像和視頻源,還能處理各種圖像退化問題(如模糊、噪聲、壓縮偽影等),提...
AI正面臨一個難以突破的硬性天花板
近幾個月來,圍繞人工智能的炒作達到了瘋狂的程度。據說,特斯拉將在一兩年內完全實現自動駕駛,人工智能明年將比人類更聰明,到2040年,十億臺AI驅動的機器...
HuggingFace燒錢做了一大批實驗,揭示多模態大模型哪些trick真正有效
夕小瑤科技說 原創作者 | 謝年年構建多模態大模型時有很多有效的trick,如采用交叉注意力機制融合圖像信息到語言模型中,或直接將圖像隱藏狀態序列與文本嵌入...
【圖像分割數據集匯總】字節發布 COCONut 入選 CVPR 2024,立即體驗 Segment Anything 分割萬物!
隨著計算機視覺技術的不斷發展,圖像分割在諸多領域展現出重要的應用價值。近年來,各種圖像分割數據集如雨后春筍般涌現。上個月,字節跳動發布了首個大規模...
史上最丑AI生圖爆火!成了賺錢好生意,Remini玩法解讀
“黏土AI”一夜之間火了,霸屏五一假期,登頂App免費榜。 作者|李水青 編輯|心緣 智東西5月6日報道,今年五一假期,一個名為“Remini”的AI修圖App火遍全網。 用...
上海AI Lab開源首個可替代GPT-4V的多模態大模型
夕小瑤科技說 原創作者 | 任同學與開源和閉源模型相比,InternVL 1.5 在 OCR、多模態、數學和多輪對話等 18 個基準測試中的 8 個中取得了最先進的結果。 上海...
LeCun上月球?南開、字節開源StoryDiffusion讓多圖漫畫和長視頻更連貫
機器之心報道 編輯:楊文、亞鸝有了 StoryDiffusion,更加一致性的圖像和視頻生成得到了保障。兩天前,圖靈獎得主 Yann LeCun 轉載了「自己登上月球去探索」...
CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
參數量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...