標(biāo)簽:圖像
只需2分鐘,單視圖3D生成又快又好!北大等提出全新Repaint123方法
新智元報道編輯:LRS 好困 【新智元導(dǎo)讀】將2D擴(kuò)散模型的強(qiáng)大圖像生成能力與再繪策略的紋理對齊能力結(jié)合起來,Repaint123能夠在2分鐘內(nèi)從零開始生成具有多視...
Midjourney文本渲染新升級,與DALL·E 3拼,看看誰更強(qiáng)
機(jī)器之心報道 編輯:大盤雞文字渲染哪家強(qiáng),今天你來做裁判。如果文生圖中也有「敬業(yè)」代表,那 Midjourney 絕對能夠提名。從發(fā)布開始,每次更新都給我們不一...
谷歌DeepMind最新研究:對抗性攻擊對人類也有效,人類和AI都會把花瓶認(rèn)成貓!
新智元報道編輯:alan 【新智元導(dǎo)讀】神經(jīng)網(wǎng)絡(luò)由于自身的特點而容易受到對抗性攻擊,然而,谷歌DeepMind的最新研究表明,我們?nèi)祟惖呐袛嘁矔艿竭@種對抗性擾...
1張圖2分鐘轉(zhuǎn)3D!紋理質(zhì)量、多視角一致性新SOTA|北大出品
張俊武 唐振宇 投稿量子位 | 公眾號 QbitAI只需兩分鐘,玩轉(zhuǎn)圖片轉(zhuǎn)3D! 還是高紋理質(zhì)量、多視角高一致性的那種。 不管是什么物種,輸入時的單視圖圖像還是這...
攻克圖像「文本生成」難題,碾壓同級擴(kuò)散模型!兩代TextDiffuser架構(gòu)深度解析
新智元報道編輯:LRS 好困 【新智元導(dǎo)讀】解決擴(kuò)散模型「不識字」的問題,Textdiffuser采用兩階段(布局+圖像)生成框架,顯著提升了相關(guān)性能的指標(biāo)!近年來...
看見這張圖沒有,你就照著畫:谷歌圖像生成AI掌握多模態(tài)指令
機(jī)器之心報道 編輯:Panda用圖 2 的風(fēng)格畫圖 1 的貓貓并給它戴上一頂帽子。谷歌新設(shè)計的一種圖像生成模型已經(jīng)能做到這一點了!通過引入指令微調(diào)技術(shù),多模態(tài)...
因為它,馬斯克和兵馬俑都跳起了《科目三》
一張照片就能讓馬斯克、梅西等各大名人魔性跳舞,甚至連火爆全網(wǎng)的科目三都能安排上。 這可不是什么高深 AI 技術(shù),阿里通義千問移動端新增的「全民舞王」功能...
谷歌推出創(chuàng)新SynCLR技術(shù):借助AI生成的數(shù)據(jù)實現(xiàn)高效圖像建模,開啟自我訓(xùn)練新紀(jì)元!
夕小瑤科技說 原創(chuàng)作者 | 付奶茶谷歌推出了一種創(chuàng)新性的合成圖像框架,這一框架獨特之處在于它完全不依賴真實數(shù)據(jù)。這個框架首先從合成的圖像標(biāo)題開始,然后...
博士后招聘|波士頓學(xué)院Donglai Wei教授,生物醫(yī)學(xué)圖像分析方向
新智元報道編輯:LRS 【新智元導(dǎo)讀】波士頓學(xué)院博士后招聘,要求計算機(jī)相關(guān)博士,研究方向為生物醫(yī)學(xué)圖像分析,重點關(guān)注病理圖像和三維顯微圖像。波士頓學(xué)院...
AI 立大功!神經(jīng)網(wǎng)絡(luò)對太陽圖像進(jìn)行三維重建,首次揭示太陽極點
作者:加零 編輯:李寶珠、三羊 科羅拉多州國家大氣研究中心 (NCAR) 的研究人員利用 NeRFs 神經(jīng)網(wǎng)絡(luò),將太陽的二維圖像轉(zhuǎn)換成三維重建圖像,首次揭示了太陽的...
谷歌發(fā)布Prompt Expansion框架,讓文生圖更輕松!
夕小瑤科技說 原創(chuàng)作者 | 付奶茶、Python盡管文本生成圖像(Text-to-Image Generation)模型功能強(qiáng)大,但有效地利用它們依然是一項挑戰(zhàn),因為傳統(tǒng)使用方法往...
清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
作者 | 凌敏 近日,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Ground...
給3D資產(chǎn)生成高清紋理,騰訊讓AI擴(kuò)充游戲皮膚
機(jī)器之心專欄 機(jī)器之心編輯部近日,騰訊宣布推出一項名為 Paint3D 的技術(shù),它能夠根據(jù)文本或圖像輸入,為無紋理的 3D 模型生成高分辨率、無光照且多樣化的紋...
ViT-22B被取代了!商湯開源60億視覺參數(shù)大模型InternVL刷爆多模態(tài)榜單!
論文鏈接: https://arxiv.org/abs/2312.14238開源代碼: https://github.com/OpenGVLab/InternVL01引言大型語言模型(LLMs)在開放世界語言任務(wù)中展現(xiàn)出令人...
回顧2023,那些令 AI 圈大的瞬間!
夕小瑤科技說 原創(chuàng)作者 | 王二狗一年前,ChatGPT 橫空出世,“大模型”成為全球科技賽道絕對的“C位”。 這一年,國外微軟OpenAI和谷歌DeepMind等“眾神”打架,國...