標(biāo)簽:圖像

生圖超級外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強(qiáng)的圖像解析推理能力,還能結(jié)合圖像推理和生成,香港中文大學(xué)終身教授賈佳亞團(tuán)隊(duì)提出的這款多模態(tài)模型Mini-Ge...
閱讀原文

刷爆多模態(tài)任務(wù)榜單!賈佳亞團(tuán)隊(duì)Mini-Gemini登熱榜,代碼、模型、數(shù)據(jù)全部開源

機(jī)器之心發(fā)布 機(jī)器之心編輯部Mini-Gemini 堪比 GPT4+DALLE3 王炸組合。更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強(qiáng)的圖像解析推理能力,還能結(jié)合圖像推...
閱讀原文

震驚!國外大廠被爆用競爭對手?jǐn)?shù)據(jù)訓(xùn)練模型

點(diǎn)擊上方藍(lán)字關(guān)注我們“揭露Adobe Firefly背后的秘密:竟利用競爭對手的數(shù)據(jù)來訓(xùn)練其人工智能模型。文章揭示了Adobe在人工智能內(nèi)容生成領(lǐng)域的策略和道德挑戰(zhàn),...
閱讀原文

曾爆火的 InstantID又有了新玩法:風(fēng)格化圖像生成,已開源

機(jī)器之心專欄 機(jī)器之心編輯部InstantID 原班團(tuán)隊(duì)推出了風(fēng)格遷移的新方法InstantStyle。風(fēng)格化圖像生成,也常稱為風(fēng)格遷移,其目標(biāo)是生成與參考圖像風(fēng)格一致的...
閱讀原文

GPT超越擴(kuò)散、視覺生成Scaling Law時(shí)刻!北大&字節(jié)提出VAR范式

機(jī)器之心發(fā)布 機(jī)器之心編輯部新一代視覺生成范式「VAR: Visual Auto Regressive」視覺自回歸來了!使 GPT 風(fēng)格的自回歸模型在圖像生成首次超越擴(kuò)散模型,并觀...
閱讀原文

CVPR 2024 | 僅需文本或圖像提示,新框架CustomNeRF精準(zhǔn)編輯3D場景

機(jī)器之心專欄 機(jī)器之心編輯部美圖影像研究院(MT Lab)與中國科學(xué)院信息工程研究所、北京航空航天大學(xué)、中山大學(xué)共同提出了 3D 場景編輯方法 ——CustomNeRF,...
閱讀原文

CVPR 2024丨文本或圖像提示精準(zhǔn)編輯 3D 場景,美圖&信工所&北航&中大聯(lián)合提出 3D 編輯方法 CustomNeRF

美圖影像研究院(MT Lab)與中國科學(xué)院信息工程研究所、北京航空航天大學(xué)、中山大學(xué)共同提出了3D場景編輯方法——CustomNeRF,同時(shí)支持文本描述和參考圖像作為3...
閱讀原文

谷歌推出Imagen 2,可生成短視頻

點(diǎn)擊上方藍(lán)字關(guān)注我們“谷歌發(fā)布Imagen 2,一款新的AI圖像生成工具,旨在為企業(yè)用戶提供專業(yè)服務(wù)。盡管面臨競爭和深度偽造的擔(dān)憂,谷歌通過創(chuàng)新功能和安全措施...
閱讀原文

蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V

手機(jī)廠商自研的端側(cè)模型功能,會(huì)超越純正的大模型團(tuán)隊(duì)嗎?編譯 | 賴文昕 編輯 | 陳彩嫻 大模型的誕生,讓科技巨頭與創(chuàng)業(yè)公司們在新一輪的競賽中再次鳴槍出發(fā)...
閱讀原文

Scaling Laws又失靈了?谷歌新研究:擴(kuò)散模型不是越大越好

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說作者:Zicy 近年來,模型規(guī)模呈現(xiàn)出愈來愈大的趨勢,越來越多的人相信“力大磚飛”。 OpenAI 雖然沒有公布Sora的訓(xùn)練細(xì)節(jié),但...
閱讀原文

內(nèi)含教程丨最高可降低 16 倍成本,ComfyUI Stable Cascade 教程已上線,一鍵部署!

作者:十九 編輯:李寶珠 今年 2 月,Stability AI 開源了文生圖模型 Stable Cascade。相比于 Stable Diffusion 1.5,Stable Cascade 可以降低 16 倍成本。20...
閱讀原文

Lumiere: Google 發(fā)布用于視頻生成的時(shí)空擴(kuò)散模型

來源:跳動(dòng)的數(shù)據(jù) Lumiere 一種文本轉(zhuǎn)視頻擴(kuò)散模型,旨在合成具有逼真、多樣和連貫運(yùn)動(dòng)的視頻,這是視頻合成領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。為此,引入了一種時(shí)空 U-Net...
閱讀原文

低成本算法,大幅提升視覺分類魯棒性!悉尼大學(xué)華人團(tuán)隊(duì)發(fā)布全新EdgeNet方法

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】EdgeNet可以處理從干凈的自然圖像或嘈雜的對抗性圖像中提取的邊緣,產(chǎn)生魯棒的特征,具有輕量級、即插即用等特點(diǎn),能夠無...
閱讀原文

超10秒高分辨率,北大Open Sora視頻生成更強(qiáng)了,還支持華為芯片

機(jī)器之心報(bào)道 編輯:陳萍北大團(tuán)隊(duì)聯(lián)合兔展發(fā)起的 Sora 復(fù)現(xiàn)計(jì)劃,現(xiàn)在有了新成果。OpenAI 在今年年初扔出一項(xiàng)重大研究,Sora 將視頻生成帶入一個(gè)新的高度,很...
閱讀原文

多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源

機(jī)器之心專欄 機(jī)器之心編輯部最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務(wù)上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)...
閱讀原文
1202122232448