標簽:圖像
只需2分鐘,單視圖3D生成又快又好!北大等提出全新Repaint123方法
新智元報道編輯:LRS 好困 【新智元導讀】將2D擴散模型的強大圖像生成能力與再繪策略的紋理對齊能力結合起來,Repaint123能夠在2分鐘內從零開始生成具有多視...
Midjourney文本渲染新升級,與DALL·E 3拼,看看誰更強
機器之心報道 編輯:大盤雞文字渲染哪家強,今天你來做裁判。如果文生圖中也有「敬業」代表,那 Midjourney 絕對能夠提名。從發布開始,每次更新都給我們不一...
谷歌DeepMind最新研究:對抗性攻擊對人類也有效,人類和AI都會把花瓶認成貓!
新智元報道編輯:alan 【新智元導讀】神經網絡由于自身的特點而容易受到對抗性攻擊,然而,谷歌DeepMind的最新研究表明,我們人類的判斷也會受到這種對抗性擾...
1張圖2分鐘轉3D!紋理質量、多視角一致性新SOTA|北大出品
張俊武 唐振宇 投稿量子位 | 公眾號 QbitAI只需兩分鐘,玩轉圖片轉3D! 還是高紋理質量、多視角高一致性的那種。 不管是什么物種,輸入時的單視圖圖像還是這...
攻克圖像「文本生成」難題,碾壓同級擴散模型!兩代TextDiffuser架構深度解析
新智元報道編輯:LRS 好困 【新智元導讀】解決擴散模型「不識字」的問題,Textdiffuser采用兩階段(布局+圖像)生成框架,顯著提升了相關性能的指標!近年來...
看見這張圖沒有,你就照著畫:谷歌圖像生成AI掌握多模態指令
機器之心報道 編輯:Panda用圖 2 的風格畫圖 1 的貓貓并給它戴上一頂帽子。谷歌新設計的一種圖像生成模型已經能做到這一點了!通過引入指令微調技術,多模態...
因為它,馬斯克和兵馬俑都跳起了《科目三》
一張照片就能讓馬斯克、梅西等各大名人魔性跳舞,甚至連火爆全網的科目三都能安排上。 這可不是什么高深 AI 技術,阿里通義千問移動端新增的「全民舞王」功能...
谷歌推出創新SynCLR技術:借助AI生成的數據實現高效圖像建模,開啟自我訓練新紀元!
夕小瑤科技說 原創作者 | 付奶茶谷歌推出了一種創新性的合成圖像框架,這一框架獨特之處在于它完全不依賴真實數據。這個框架首先從合成的圖像標題開始,然后...
博士后招聘|波士頓學院Donglai Wei教授,生物醫學圖像分析方向
新智元報道編輯:LRS 【新智元導讀】波士頓學院博士后招聘,要求計算機相關博士,研究方向為生物醫學圖像分析,重點關注病理圖像和三維顯微圖像。波士頓學院...
AI 立大功!神經網絡對太陽圖像進行三維重建,首次揭示太陽極點
作者:加零 編輯:李寶珠、三羊 科羅拉多州國家大氣研究中心 (NCAR) 的研究人員利用 NeRFs 神經網絡,將太陽的二維圖像轉換成三維重建圖像,首次揭示了太陽的...
谷歌發布Prompt Expansion框架,讓文生圖更輕松!
夕小瑤科技說 原創作者 | 付奶茶、Python盡管文本生成圖像(Text-to-Image Generation)模型功能強大,但有效地利用它們依然是一項挑戰,因為傳統使用方法往...
清華大學與智譜 AI 聯合推出 CogAgent:基于多模態大模型的 GUI Agent,具備視覺問答、視覺定位等能力
作者 | 凌敏 近日,清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Ground...
給3D資產生成高清紋理,騰訊讓AI擴充游戲皮膚
機器之心專欄 機器之心編輯部近日,騰訊宣布推出一項名為 Paint3D 的技術,它能夠根據文本或圖像輸入,為無紋理的 3D 模型生成高分辨率、無光照且多樣化的紋...
ViT-22B被取代了!商湯開源60億視覺參數大模型InternVL刷爆多模態榜單!
論文鏈接: https://arxiv.org/abs/2312.14238開源代碼: https://github.com/OpenGVLab/InternVL01引言大型語言模型(LLMs)在開放世界語言任務中展現出令人...
回顧2023,那些令 AI 圈大的瞬間!
夕小瑤科技說 原創作者 | 王二狗一年前,ChatGPT 橫空出世,“大模型”成為全球科技賽道絕對的“C位”。 這一年,國外微軟OpenAI和谷歌DeepMind等“眾神”打架,國...