碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
關(guān)鍵字:模型,圖像,深度,語義,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7401字
內(nèi)容摘要:
機(jī)器之心報道
編輯:Panda、蛋醬人類有兩只眼睛來估計(jì)視覺環(huán)境的深度信息,但機(jī)器人和 VR 頭社等設(shè)備卻往往沒有這樣的「配置」,往往只能靠單個攝像頭或單張圖像來估計(jì)深度。這個任務(wù)也被稱為單目深度估計(jì)(MDE)。
近日,一種可有效利用大規(guī)模無標(biāo)注圖像的新 MDE 模型 Depth Anything 憑借強(qiáng)大的性能在社交網(wǎng)絡(luò)上引起了廣泛討論,試用者無不稱奇。
甚至有試用者發(fā)現(xiàn)它還能正確處理埃舍爾(M.C.Escher)那充滿錯覺的繪畫藝術(shù)(啟發(fā)了《碑谷》等游戲和藝術(shù)):從水上到水下,絲滑切換:更好的深度模型也得到了效果更好的以深度為條件的 ControlNet,可用于圖像生成和視頻編輯。如下圖所示,生成的內(nèi)容質(zhì)量得到了顯著增強(qiáng):理論上說,基礎(chǔ)模型可用于解決單目深度估計(jì)(MDE)問題,即基于單張圖像估計(jì)深度信息。這類技術(shù)在機(jī)器人、自動駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域都有廣闊的應(yīng)用前景。但由于難以構(gòu)建帶有數(shù)千萬深度標(biāo)簽的數(shù)據(jù)集,這一問題還少有研究者探索。
此前的 MiDaS 算得上是這個方向上的一項(xiàng)開創(chuàng)性研究,其基于一個混合標(biāo)注的數(shù)據(jù)集訓(xùn)練了一個 MDE 模型。盡管 MiDaS 展現(xiàn)出了一定程度的零
原文鏈接:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺