<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        SIGGRAPH Asia 2024:傳統(tǒng)與創(chuàng)新并存,3D 生成與具身智能熱度上升

        AIGC動態(tài)7個月前發(fā)布 AI科技評論
        416 0 0

        在 3D 這條還不算擁擠的賽道,技術(shù)和應(yīng)用成果正不斷涌現(xiàn)。作者丨朱可軒編輯丨陳彩嫻今日,歷時四天(12.3-12.6)的第十七屆 SIGGRAPH Asia 在東京正式閉幕,本屆圍繞的主題為「Curious Minds」,無論是參與注冊的人數(shù)還是論文投稿數(shù)都創(chuàng)下了歷史新高。華人學(xué)者在本次大會上的表現(xiàn)依舊十分亮眼,在會場,幾乎大多數(shù)論文背后都有華人的身影。當(dāng)前,在計算機視覺學(xué)界主要有新興派和傳統(tǒng)派兩類研究者,前者的目光主要聚焦在具身智能和 3D 生成方向,而后者則依舊專注于解決幾何建模和幾何處理中的細節(jié)問題。新興派的論文成果正處噴涌期,但今年的論文也并非全然被 AI 浪潮席卷,老派研究依舊占據(jù)了一席之地。除了學(xué)術(shù)論文外,今年的展位也依舊人頭濟濟。據(jù) AI 科技評論觀察,和往年相比,今年有關(guān)動作捕捉的展示項目占大頭,同時,以 VAST、影眸、元象為代表的 3D AIGC 大陸廠商也參與了展出。從產(chǎn)業(yè)化的角度,3D 當(dāng)前確實還不比多模態(tài)大模型的應(yīng)用面那么廣泛。但深圳大學(xué)計算機與軟件學(xué)院教授胡瑞珍十分看好這一方向的發(fā)展,她告訴 AI 科技評論,「數(shù)字媒體一直在更新迭代,一開始是音頻,然后變成一些二維的圖像視頻,不遠的將來數(shù)字媒體的呈現(xiàn)形式就會變化到三維了,就像 體積視頻、元宇宙,包括李飛飛提到的空間智能,都在強調(diào) 3D 內(nèi)容和三維感知。」現(xiàn)階段,3D 還是一條相對而言沒有那么擁擠的賽道,這也恰好為學(xué)術(shù)和創(chuàng)業(yè)提供了蓬勃發(fā)展的空間和機會。在會場,AI 科技評論和多位從業(yè)者進行了交談,并在此之中得到了一些結(jié)論:3D 生成方向有關(guān)幾何和紋理模型的技術(shù)成果正在快速更新中,但其中有關(guān)到底走端到端還是多步迭代的路徑業(yè)內(nèi)稍有分歧。技術(shù)還未走向完全成熟,所以 3D AIGC 的應(yīng)用落地也還尚處早期,用戶對于三維的認知和需求也都有待提升,目前在與日常生活較為貼近的游戲、美術(shù)設(shè)計和電商等方向應(yīng)用較多,與前者相比,工業(yè)界落地相對已較成熟。關(guān)于 Animation 的技術(shù)也還需突破,當(dāng)前在骨骼方面缺乏比較 Scale 的模型,這一方向與 AI 緊密結(jié)合后和空間智能會比較接近。1模型技術(shù)創(chuàng)新持更中近年來,在幾何、紋理方向一直在持續(xù)出現(xiàn)有關(guān)大模型的前沿技術(shù)。海外包括 Meta 的 3D Gen、Adobe 的LRM 、Google 的 DreamFusion 等,國內(nèi)目前比較有代表性的主要有 CLAY、TEXGen 等。在幾何方面,影眸科技在今年的 SIGGRAPH 上被提名了榮譽獎的 3D 原生 Diffusion Transformer 生成式大模型 CLAY,也解決了 2D 升維法所存在的問題,實現(xiàn)直接從 3D 數(shù)據(jù)集訓(xùn)練模型的突破。CLAY的進階版本Rodin Gen-1也在今年6月正式上線,并在本屆大會上進行了展出。VAST 所采用的是一個基于 rectified flow 的大規(guī)模形狀生成模型,據(jù)了解,這種模型能夠在采樣步數(shù)更少的情況下精度更高,同時訓(xùn)練也會更穩(wěn)定。在紋理生成這部分,此前比較主流的操作方式主要有兩種——第一是借助已經(jīng)訓(xùn)好的圖像生成模型去做紋理貼圖,這其中包括 Google 的 DreamFusion 開創(chuàng)的所謂「2D 升 3D」的路徑,以及常用的通過逐步的多個單視角的紋理生成和反投影進行整個模型的紋理生成。但這種方式的缺點在于,由于生成依賴于圖像模型而不具有整體的三維感知能力,AI 無法判斷各個視角的整體一致性,所以生成內(nèi)容可能存在諸如一個人正反兩面都有人頭的問題,當(dāng)前學(xué)術(shù)界也在尋求突破。第二是一種依靠圖像數(shù)據(jù)做訓(xùn)練監(jiān)督的 regression 的 model,使用一個 texture field 做紋理表示,但這種方式?jīng)]辦法做現(xiàn)在流行的基于原生數(shù)據(jù)訓(xùn)練的 diffusion model,進行多步迭代,最終呈現(xiàn)出來的細節(jié)效果不太好,人眼所看不到的立體圖像背面可能會比較模糊。區(qū)別于前述兩種操作,此次 VAST 和港大、清華團隊獲得最佳論文提名獎的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》帶來了自己的思考。論文鏈接:https://arxiv.org/pdf/2411.14740AI 科技評論在會場聯(lián)系到了該篇論文的一作余鑫,他當(dāng)前在香港大學(xué)就讀博三,師從齊曉娟。據(jù)他介紹,「我們做的模型不需要依賴于 2D 升 3D 的方式,直接訓(xùn)練一個原生的 diffusion model 輸出 3D 紋理內(nèi)容,這種原生的 3D 模型能一次性生成整個物體的紋理。」這塊做下來有幾處難點問題,首要的是數(shù)據(jù),因為紋理涉及到一些表現(xiàn)形式,而不同的表現(xiàn)形式所獲得的數(shù)據(jù)多少其實是不同的,另絡(luò)架構(gòu)和算力也存在難點問題。實際上,余鑫也并非從一開始就做紋理模型,在 stable diffusion 出來之前,他就嘗試過用 latent diffusion 做幾何模型,后來出于多種因素考慮,他才逐漸開始轉(zhuǎn)向聚焦紋理模型。在他看來,紋理比幾何更復(fù)雜、變化更大,并且是一種表面屬性,當(dāng)前的神經(jīng)網(wǎng)絡(luò)也很難去處理紋理數(shù)據(jù),也正是因為困難相比幾何更大,這塊賽道當(dāng)前還鮮有人切入。「我之前也做過利用 2D 升維的 3D 生成工作,這種方式的確可以在某些程度上取得驚人的短期視覺效果。但他終究不是一個通過 3D data 學(xué)習(xí)的原生模型,存在各種 bias,所以長期來講,我覺得有還是要走通過 3D 數(shù)據(jù)訓(xùn)練的 feed-forward 路線。」余鑫說道。之后在研究過程中,他也曾考慮過類似 Meta 3D Gen 的路徑,將 3D 紋理貼圖作為兩個階段分別處理,即先多視角生成再訓(xùn)練一個模型進行補全,并做出了短期效果。但最終認為這種做法其實存在一定上限,如若要追求長遠的效果,還需要嘗試新的方案。此外,對于多個階段的生成方式,他也曾考慮過另一種方式,主要是用到紋理的兩種表現(xiàn)形式,并都支持直接訓(xùn)練 diffusion model。(此文章即 Point-UV Diffusion,發(fā)表在 ICCV 2023 Oral。)「之前我的想法是分兩個階段去 train 兩個 diffusion model,后來我開始思考 end to end 把兩個階段的優(yōu)勢都發(fā)揮出來的可能性,感覺是可以實現(xiàn)的,所以也針對這一點提出了混合 2D-3D 去噪模塊。」余鑫說道。另外,值得一提的是,影眸科技 CTO 張啟煊也透露,幾何的絕對質(zhì)量和貼圖的絕對精度也將是影眸團隊接下來重點會突破的方向,明年 1 月會正式官宣新的突破性進展,并爭取在年底上線新版本。當(dāng)前,在 3D AIGC 方向的發(fā)展與圖像、視頻這類二維內(nèi)容生成式模型在多樣性、可編輯性等方面、個性化定制等方面還有部分差距,這也是學(xué)界和業(yè)界需要合力去攻克的問題。在胡瑞珍看來,「未來到底是走 end to end 還是 Multi step 的路徑解決問題,現(xiàn)階段還不好判斷,因為三維數(shù)據(jù)確實沒有二維多。」23D 生成應(yīng)用已經(jīng)起步本次大會,AI 科技評論在現(xiàn)場聽到最多的關(guān)鍵詞大概當(dāng)屬「數(shù)據(jù)」。有業(yè)者認為,數(shù)據(jù)對于 3D 生成平臺而言是決定所做產(chǎn)品差異性的關(guān)鍵問題,甚至在現(xiàn)階段的重要性大于模型。VAST 目前和同行相比的優(yōu)勢就在于大規(guī)模高質(zhì)量的私有數(shù)據(jù)集,據(jù) VAST 首席科學(xué)家曹炎培介紹,「我們目前已經(jīng)有 2000 萬高質(zhì)量 3D 訓(xùn)練數(shù)據(jù),而訓(xùn)練開源模型或者沒有私有數(shù)據(jù)的團隊可能只能用到幾十萬數(shù)據(jù),這樣一兩個量級的差別會導(dǎo)致最終 3D AI 生成模型結(jié)果精度、泛化性、多樣性、可控性等方面的差異。」張啟煊同樣強調(diào)了數(shù)據(jù)的重要性,「對于 3D 生成來講,其實數(shù)據(jù)的絕對數(shù)量不重要,質(zhì)量非常重要。」高質(zhì)量數(shù)據(jù)需要足夠細節(jié)、平整,達到 production ready 的質(zhì)量,真正用在最后實際生產(chǎn)里。當(dāng)前,「開放的 3D 數(shù)據(jù)存在大量過于簡單的 model,還會有很多點云和低質(zhì)量的 model,這些其實都應(yīng)該剔除掉,所以我們也花了大量的時間在數(shù)據(jù)修復(fù)和數(shù)據(jù)清洗上,以此來提高整體質(zhì)量。」張啟煊強調(diào)。影眸展位除了數(shù)據(jù)以外,3D Tokenizer 也是當(dāng)前在技術(shù)上較為有挑戰(zhàn)性的部分,還有很大的進化空間。目前情況來看,文字 Tokenizer 實則已經(jīng)發(fā)展到比較成熟的階段,圖像、視頻方面其實也已經(jīng)有了 Sora 在前打樣,但 3D 的研究成果還在持續(xù)更新中。應(yīng)用場景目前在 3D 生成領(lǐng)域也還不夠明晰,在業(yè)內(nèi)看來,如若只是服務(wù)游戲、美術(shù)等方面,最終的盤子不夠大。AI 科技評論在現(xiàn)場走訪到的幾家廠商,現(xiàn)階段基本集中于游戲、設(shè)計、3D打印、電商等落地場景。VAST 面向的場景之一是幫助游戲、動畫行業(yè)降本增效,降低此類內(nèi)容的制作成本和時間,其二則是泛定制化、泛工業(yè)的 3D 打印,除此之外、也是未來最關(guān)注的場景,則為需要實時低成本 3D 內(nèi)容創(chuàng)作的UGC(user-generated content)場景。「比如元宇宙,以及一些做開放世界的客戶,其實很希望引入一些 UGC 玩法,有了 3D 內(nèi)容生成平臺以后他們能夠解決海量 3D 資產(chǎn)構(gòu)建的問題,并且設(shè)計出在沒有實時 3D 生成技術(shù)前無法設(shè)想的玩法。」曹炎培告訴 AI 科技評論。「我們在今年 SIGGRAPH Asia 上參與的另一個環(huán)節(jié) Real-Time Live! 中所展示的 Tripo Doodle,也正是如何利用 AI 3D 技術(shù)讓普通人能夠從簡筆畫實時生成自己想要的 3D 模型。」在他看來,「從邏輯和技術(shù)發(fā)展趨勢上來講,3D 內(nèi)容平臺是未來一定會出現(xiàn)的應(yīng)用方向,所以我們未來的發(fā)展方向正是構(gòu)建這樣一個平臺,而現(xiàn)在所做的 AI 3D 工具是一個必經(jīng)階段,因為構(gòu)建內(nèi)容平臺首先需要易上手、低成本的內(nèi)容創(chuàng)作工具。」VAST 展位影眸所切入的也有類似賽道,但和 VAST 的主要區(qū)別在于,前者所做的工具會更為專業(yè)。在今年 8 月的 SIGGRAPH 上,影眸團隊也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。「比起讓 AI 像個隨機的老,我們更希望讓藝術(shù)家可以自己掌控生成的環(huán)節(jié)。」張啟煊分享道。除此之外,電商也是 3D 生成當(dāng)前的一塊落地場景, 影眸目前所做的主要是給家具、工藝品商家提供 3D 模型。不過,值得關(guān)注的是,現(xiàn)階段,服裝類暫時已不被各家納入應(yīng)用范疇,此前,其實虛擬試衣一直分為 3D 和 2D 兩派。去年,影眸曾考慮過服裝生成的市場,其發(fā)表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主會拿過榮譽提名獎,主要介紹了一種專為 3D 服裝設(shè)計的生成式 AI 框架 DressCode。但在今年的會場中,張啟煊告訴 AI 科技評論,「現(xiàn)在大家想做虛擬試衣,基本上會跳過 3D 這個步驟,直接進行視頻生成,所以我們這方面先擱置了,選擇 All in 物品級的 3D 生成上。」「結(jié)合 3D 生成做虛擬試衣其實是需要進行布料模擬的,而這一步十分消耗算力,但視頻生成其實所需要的算力相對會更少,而在其他場景里的算力消耗程度則相反。」他進一步介紹其觀察。曹炎培也認為虛擬換裝方向現(xiàn)階段結(jié)合圖像、視頻生成模型相較純 3D 方案會是更優(yōu)解。在他看來,視頻生成模型在和諧度、動態(tài)觀感等方面很有優(yōu)勢,而純 3D 方案則有一些難以解決的問題:「首先,所需要的 3D 衣服模型許多小的網(wǎng)店商家肯定沒有,他們只有實體服裝,但如若通過 3D 掃描等數(shù)字化方式也較難得到準(zhǔn)確、高質(zhì)量的服飾模型。在此之后,如果要實現(xiàn)虛擬試穿,在純3D管線中,還涉及如何獲取試衣者的高還原度 3D 數(shù)字模型、如何進行高質(zhì)量物理解算與渲染獲得試穿效果等難題。」產(chǎn)業(yè)化的落地對比學(xué)術(shù)界必然會存在些許滯后性,而目前 3D 這塊領(lǐng)域的技術(shù)還在更新迭代中,只有當(dāng)技術(shù)走向成熟以后,應(yīng)用落地才能隨之提速。前文所提到的基本是與日常生活更貼近的場景,用戶或許對于三維的需求暫時不太旺盛。但胡瑞珍向 AI 科技評論分享了她的觀察,在她的視角中,實際上,現(xiàn)在在工業(yè)界范圍內(nèi),3D 的落地已經(jīng)相當(dāng)廣泛。「類似智能智慧工廠、港口的智慧調(diào)度等等,這些場景都需要三維內(nèi)容,要有一些數(shù)字車間,這部分的發(fā)展其實遠比我們想象的要成熟,只是距離日常生活稍微有點遠,許多人不太了解。」3動態(tài) 3D 模型亟需突破同樣作為在現(xiàn)場比較有代表性的廠商之一的元象,選擇了 3D 市場中的其他切入方向。大空間 VR 是他們此次展出的重點產(chǎn)品。其偏于 XR 的整合應(yīng)用本身,應(yīng)用場景主要在線下通過佩戴頭顯進行沉浸式體驗,當(dāng)前元象在全國已開設(shè)了三十多家「幻旅之門」線下門店。據(jù)元象引擎和 AIGC 算法負責(zé)人黃浩智介紹,「我們主要以超采樣配合性能優(yōu)化帶來高清晰度畫面,品質(zhì)清晰度、不眩暈以及幀率穩(wěn)定是我們大空間 VR 的優(yōu)勢。」另外,元象本次大會帶來也展示了一款骨骼動畫的插件,通過文本生成骨骼動畫的動作。今年 8 月,元象推出了國內(nèi)首個基于物理的 3D 動作生成模型 MotionGen,主要解決生成逼真角色動作的行業(yè)內(nèi)持續(xù)性挑戰(zhàn)問題。不過,元象也還在探索初期。會場有 3D 從業(yè)者告訴 AI 科技評論,當(dāng)前,在 Animation Rigging 的方向上,其實還比較缺少用數(shù)據(jù)訓(xùn)得非常充分、非常 Scale 的模型,去服務(wù)動態(tài) 3D。MotionGen 在動作自然度、文本匹配度等方面也都還有提升空間。「如若描述的文字太過復(fù)雜,可能會存在無法理解的情況,訓(xùn)練數(shù)據(jù)也影響到最終呈現(xiàn)的效果,數(shù)據(jù)、模型都還有很多優(yōu)化空間。」元象動作生成算法負責(zé)人鐘國仁向 AI 科技評論介紹道。也同樣由于剛剛起步,用戶處于免費試用期,所以元象所使用的也還是開源數(shù)據(jù)集。當(dāng)前,在解決數(shù)據(jù)問題方面,比較主流的路徑有兩條:一是結(jié)合動捕設(shè)備自己生產(chǎn)數(shù)據(jù),這也是業(yè)界普遍采用的方法。展位位于元象對面的廠商唯晶科技所選擇的方式便與此類似。唯晶科技旗下產(chǎn)品 Genmotion.AI 的負責(zé)人劉同梅介紹,「我們目前和世界排名靠前的游戲公司合作,而他們在使用 AI 工具時,其實擔(dān)憂的關(guān)鍵問題在于數(shù)據(jù)來源,所以我們所有的數(shù)據(jù)都是自己動捕的,所有的動作都有全程錄影詳細記錄,甚至結(jié)合區(qū)塊鏈輔助溯源。」元象也有自己的動捕設(shè)備,但在鐘國仁看來,前述做法其實對許多廠商而言比較費時費力。所以,元象更看好另外一種做法,即從視頻里提取動作,之后再基于大語言模型理解這些動作,然后形成相關(guān)文字描述,這也相當(dāng)于一部分?jǐn)?shù)據(jù)。元象 XVERSE 展位另外,骨骼的形態(tài)變換也有廠商正在探索更多情景。劉同梅告訴 AI 科技評論,「我們目前的 3D 動畫只有一種骨架,骨架重定位的功能正在開發(fā)中,之后可支援侏儒和巨人有差異性的骨骼,另外,現(xiàn)階段 3D 動作只支援人的骨骼,四足動物動作數(shù)據(jù)還未深入研究。」值得一提的是,VAST 的 Tripo 平臺上也有自動角色綁定和動畫的相關(guān)功能,可以控制所生成的 3D 形象展開多樣的動作,但目前主要適用于人形或類人形角色,更加泛用的動畫功能還在研發(fā)當(dāng)中。VAST 的綁骨畫面演示結(jié)構(gòu)化生成也是后期需要研究突破的方向。在業(yè)者的設(shè)想中,未來其實可以做到讓類似抽屜等物體可拆分為幾片,甚至操作其開合,這也會是一個有想象力的方向。面向更大的 3D 場景的產(chǎn)品也同樣仍處在發(fā)展初期,目前做得更偏向于全景圖像,將其 3D 化可以看到任意一面的動態(tài),但是,通過 3D 實現(xiàn)操作和交互物件業(yè)內(nèi)也還在探索中。值得一提的是,事實上,Animation 和李飛飛所提出的「空間智能」也是有共通之處的。胡瑞珍談到,「 Animation 通俗理解其實就是建模已經(jīng)做好了,之后讓角色動起來,看上去更加真實,這其中所有的東西都會涉及到對空間感知、空間計算,現(xiàn)在我們把 AI 的一些技術(shù)用進來,其實跟空間智能的概念是很像的。」「李飛飛把空間智能推得很火,但其實也不算是新的概念,她其實就是把學(xué)界此前沒有合并的概念進行了合并,另外她其實也沒有嚴(yán)格定義到底怎樣才算空間智能,所以在我們看來,只要在三維空間去進行感知、交互,都算是需要有空間智能的。」4寫在最后今年第三次回歸東京的 SIGGRAPH Asia 相比于去年的悉尼,參會熱情明顯高升,不少參會者都向 AI 科技評論興奮地分享了一邊學(xué)術(shù)交流一邊游玩東京的經(jīng)歷。SIGGRAPH Asia 作為 SIGGRAPH 在亞洲的延伸,雖然參會人數(shù)和投稿量規(guī)模會相對小一點,但同樣也作為大會技術(shù)交流和海報主席的胡瑞珍向 AI 科技評論透露,兩場大會的技術(shù)論文評選標(biāo)準(zhǔn)是完全一致的,論文質(zhì)量也處于同一高度。近年,投稿數(shù)量從三百多篇到近千篇,學(xué)者投稿 SIGGRAPH Asia 的熱情正直線走高,不過,也有會場學(xué)者表達了些許遺憾,在他們看來,本次大會還是沒有給到太多預(yù)期外的驚喜。明年的大會將落地在香港,在人工智能的浪潮之下,計算機視覺和圖形學(xué)的未來發(fā)展將會如何,可以繼續(xù)拭目以待。近期直播預(yù)告更多內(nèi)容,點擊下方關(guān)注:未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: kk4kk免费视频毛片| 亚洲图片激情小说| 全黄A免费一级毛片| 最近中文字幕mv免费高清电影| 亚洲狠狠婷婷综合久久久久| 又长又大又粗又硬3p免费视频| 四虎免费永久在线播放| 爱情岛亚洲论坛在线观看 | 激情婷婷成人亚洲综合| 在线jyzzjyzz免费视频| 亚洲色大情网站www| 日本视频免费在线| 欧洲亚洲综合一区二区三区| 免费国产小视频在线观看| 免费无码婬片aaa直播表情| 国产免费小视频在线观看| 免费精品国产自产拍在线观看| 亚洲精品天堂成人片?V在线播放| 国产精品亚洲一区二区三区久久| 午夜亚洲国产成人不卡在线| www在线观看播放免费视频日本| 国产亚洲日韩一区二区三区| 毛片在线全部免费观看| 亚洲精品国产成人| 午夜老司机免费视频| 美女被免费视频网站| 久久亚洲国产中v天仙www | AAA日本高清在线播放免费观看| 亚洲av午夜成人片精品网站| 99在线观看视频免费| 国产精品亚洲综合久久| 亚洲av无码国产精品色在线看不卡| 两个人看的www免费高清| 亚洲欧洲国产精品久久| 国产乱子伦片免费观看中字| 在线观看免费视频一区| 亚洲不卡视频在线观看| 亚洲成A人片在线观看中文| 永久在线观看免费视频| 亚洲第一男人天堂| 亚洲人成人网站色www|