<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        1600萬視頻解鎖「空間智能」?智源3D生成模型See3D全套開源

        AIGC動態(tài)9個月前發(fā)布 新智元
        363 0 0

        新智元報道編輯:編輯部 HYZ【新智元導讀】上周,李飛飛空間智能首個3D生成模型剛剛交卷。這邊,國內來自智源的See3D模型,在學習了無標注的1600萬個視頻之后,重建出全新的3D世界,效果令人驚嘆。近日,著名AI學者、斯坦福大學教授李飛飛團隊World Labs推出首個「空間智能」模型,僅輸入單張圖片,即可生成一個逼真的3D世界,這被認為是邁向空間智能的第一步。幾乎同時,國內智源研究院推出了首個利用大規(guī)模無標注的互聯(lián)網(wǎng)視頻學習的3D生成模型See3D——See Video, Get 3D。不同于傳統(tǒng)依賴相機參數(shù)(pose-condition)的3D生成模型,See3D采用全新的視覺條件(visual-condition)技術,僅依賴視頻中的視覺線索,生成相機方向可控且?guī)缀我恢碌亩嘁暯菆D像。這一方法不依賴于昂貴的3D或相機標注,能夠高效地從多樣化、易獲取的互聯(lián)網(wǎng)視頻中學習3D先驗。See3D不僅支持零樣本和開放世界的3D生成,還無需微調即可執(zhí)行3D編輯、表面重建等任務,展現(xiàn)出在多種3D創(chuàng)作應用中的廣泛適用性。See3D支持從文本、單視圖和稀疏視圖到3D的生成,同時還可支持3D編輯與高斯渲染相關的模型、代碼、Demo均已開源,更多技術細節(jié)請參考See3D論文。論文地址:https://arxiv.org/abs/2412.06699項目地址:https://vision.baai.ac.cn/see3d效果展示1. 解鎖3D互動世界:輸入圖片,生成沉浸式可交互3D場景,實時探索真實空間結構。實時3D交互(備注:為了實現(xiàn)實時交互式渲染,當前對3D模型和渲染過程進行了簡化,離線渲染真實效果更佳)2. 基于稀疏圖片的3D重建:輸入稀疏的(3-6張)圖片,模型可生成一個精細化的3D場景。基于6張視圖的3D重建基于3張視圖的3D重建3. 開放世界3D生成:根據(jù)文本提示,生成一副藝術化的圖片,基于此圖片,模型可生成一個虛擬化的3D場景。開放世界3D生成4.基于單視圖的3D生成:輸入一張真實場景圖片,模型可生成一個逼真的3D場景。基于單張圖片的3D生成研究動機3D數(shù)據(jù)具有完整的幾何結構和相機信息,能夠提供豐富的多視角信息,是訓練3D模型最直接的選擇。然而,現(xiàn)有方法通常依賴人工設計(designed artists)、立體匹配(stereo matching)或恢復結構(Structure from Motion, SfM)等技術來收集這些數(shù)據(jù)。盡管經(jīng)過多年發(fā)展,當前3D數(shù)據(jù)的積累規(guī)模依然有限,例如DLV3D(0.01M)、RealEstate10K(0.08M)、MVImgNet(0.22M)和Objaverse(0.8M)。這些數(shù)據(jù)的采集過程不僅耗時且成本高昂,還可能難以實施,導致其數(shù)據(jù)規(guī)模難以擴展,無法滿足大規(guī)模應用的需求。與此不同,人類視覺系統(tǒng)無需依賴特定的3D表征,僅通過連續(xù)多視角的觀察即可建立對3D世界的理解。單幀圖像難以實現(xiàn)這一點,而視頻因其天然包含多視角關聯(lián)性和相機信息,具備揭示3D結構的潛力。更重要的是,視頻來源廣泛且易于獲取,具有高度的可擴展性。基于此,See3D提出「See Video, Get 3D」的理念,旨在通過視頻中的多視圖信息,讓模型像人類一樣,學習并推理物理世界的三維結構,而非直接建模其幾何形態(tài)。方法介紹為了實現(xiàn)可擴展的3D生成,See3D提供了一套系統(tǒng)化的解決方案,具體包括:1.數(shù)據(jù)集團隊提出了一個視頻數(shù)據(jù)篩選流程,自動去除源視頻中多視角不一致或觀察視角不充分的視頻,構建了一個高質量、多樣化的大規(guī)模多視角圖像數(shù)據(jù)集WebVi3D。該數(shù)據(jù)集涵蓋來自1600萬個視頻片段的3.2億幀圖像,可通過自動化流程隨互聯(lián)網(wǎng)視頻量的增長而不斷擴充。WebVi3D數(shù)據(jù)集樣本展示2.模型標注大規(guī)模視頻數(shù)據(jù)的相機信息成本極高,且在缺乏顯式3D幾何或相機標注的情況下,從視頻中學習通用3D先驗是更具挑戰(zhàn)的任務。為解決這一問題,See3D引入了一種新的視覺條件——通過向掩碼視頻數(shù)據(jù)添加時間依賴噪聲,生成一種純粹的2D歸納視覺信號。這一視覺信號支持可擴展的多視圖擴散模型(MVD)訓練,避免對相機條件的依賴,實現(xiàn)了「僅通過視覺獲得3D」的目標,繞過了昂貴的3D標注。See3D方法展示3.3D生成框架See3D學到的3D先驗能夠使一系列3D創(chuàng)作應用成為可能,包括基于單視圖的3D生成、稀疏視圖重建以及開放世界場景中的3D編輯等, 支持在物體級與場景級復雜相機軌跡下的長序列視圖的生成。基于See3D的多視圖生成優(yōu)勢1.數(shù)據(jù)擴展性模型的訓練數(shù)據(jù)源自海量互聯(lián)網(wǎng)視頻,相較于傳統(tǒng)3D數(shù)據(jù)集,構建的多視圖數(shù)據(jù)集(16M)在規(guī)模上實現(xiàn)了數(shù)量級的提升。隨著互聯(lián)網(wǎng)的持續(xù)發(fā)展,該數(shù)據(jù)集可持續(xù)擴充,進一步增強模型能力的覆蓋范圍。2.相機可控性模型可支持在任意復雜的相機軌跡下的場景生成,既可以實現(xiàn)場景級別的漫游,也能聚焦于場景內特定的物體細節(jié),提供靈活多樣的視角操控能力。3.幾何一致性模型可支持長序列新視角的生成,保持前后幀視圖的幾何一致性,并遵循真實三維幾何的物理規(guī)則。即使視角軌跡發(fā)生變化,返回時場景依然保持高逼真和一致性。總結通過擴大數(shù)據(jù)集規(guī)模,See3D為突破3D生成的技術瓶頸提供了新的思路,所學習到的3D先驗為一系列3D創(chuàng)作應用提供了支持。希望這項工作能夠引發(fā)3D研究社區(qū)對大規(guī)模無相機標注數(shù)據(jù)的關注,避免高昂的3D數(shù)據(jù)采集成本,同時縮小與現(xiàn)有強大閉源3D解決方案之間的差距。參考資料:https://arxiv.org/abs/2412.06699https://vision.baai.ac.cn/see3d

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品蜜桃久久久久久| 99久久免费精品国产72精品九九| 免费一区二区三区四区五区 | 亚洲欧洲∨国产一区二区三区| 亚洲资源最新版在线观看| 在线观看的免费网站| 亚洲综合av一区二区三区不卡| 久久久久久99av无码免费网站 | 亚洲a在线视频视频| 无码人妻久久一区二区三区免费 | 亚洲国产成人久久一区WWW| 香蕉视频在线观看免费| 亚洲Aⅴ无码一区二区二三区软件 亚洲AⅤ视频一区二区三区 | 免费无码又爽又刺激网站| 亚洲精品无码成人AAA片| 可以免费观看的毛片| 亚洲系列国产精品制服丝袜第| 国产成人精品免费视频网页大全| 亚洲自国产拍揄拍| 国产精品免费一级在线观看| 男人j进女人p免费视频| 国产亚洲成AV人片在线观黄桃 | 免费一级毛片女人图片| jizz中国免费| 亚洲日韩在线视频| 啦啦啦www免费视频| 一边摸一边爽一边叫床免费视频| 亚洲精品无码久久久久| 黄+色+性+人免费| 国产亚洲精品美女| 亚洲精品无码高潮喷水在线| 在线视频免费观看高清| 人妻免费久久久久久久了| 老汉色老汉首页a亚洲| 青青草国产免费久久久下载| 久久久受www免费人成| 亚洲冬月枫中文字幕在线看| 免费在线看片网站| 无码av免费一区二区三区试看| 亚洲高清有码中文字| 国产亚洲成人在线播放va|