AIGC動態歡迎閱讀
原標題:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
關鍵字:模型,圖像,深度,語義,數據
文章來源:機器之心
內容字數:7401字
內容摘要:
機器之心報道
編輯:Panda、蛋醬人類有兩只眼睛來估計視覺環境的深度信息,但機器人和 VR 頭社等設備卻往往沒有這樣的「配置」,往往只能靠單個攝像頭或單張圖像來估計深度。這個任務也被稱為單目深度估計(MDE)。
近日,一種可有效利用大規模無標注圖像的新 MDE 模型 Depth Anything 憑借強大的性能在社交網絡上引起了廣泛討論,試用者無不稱奇。
甚至有試用者發現它還能正確處理埃舍爾(M.C.Escher)那充滿錯覺的繪畫藝術(啟發了《碑谷》等游戲和藝術):從水上到水下,絲滑切換:更好的深度模型也得到了效果更好的以深度為條件的 ControlNet,可用于圖像生成和視頻編輯。如下圖所示,生成的內容質量得到了顯著增強:理論上說,基礎模型可用于解決單目深度估計(MDE)問題,即基于單張圖像估計深度信息。這類技術在機器人、自動駕駛、虛擬現實等領域都有廣闊的應用前景。但由于難以構建帶有數千萬深度標簽的數據集,這一問題還少有研究者探索。
此前的 MiDaS 算得上是這個方向上的一項開創性研究,其基于一個混合標注的數據集訓練了一個 MDE 模型。盡管 MiDaS 展現出了一定程度的零
原文鏈接:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...