剛剛,谷歌發(fā)布基礎(chǔ)世界模型:11B參數(shù),能生成可交互虛擬世界
AIGC動態(tài)歡迎閱讀
原標(biāo)題:剛剛,谷歌發(fā)布基礎(chǔ)世界模型:11B參數(shù),能生成可交互虛擬世界
關(guān)鍵字:模型,動作,視頻,圖像,環(huán)境
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6149字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部一鍵生成可玩游戲世界。
問世才兩個星期,谷歌的世界模型也來了,能力看起來更強大:它生成的虛擬世界「自主可控」。剛剛,谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境(Genie,Generative Interactive Environments)。Genie 是一個 110 億參數(shù)的基礎(chǔ)世界模型,可以通過單張圖像提示生成可玩的交互式環(huán)境。
我們可以用它從未見過的圖像進(jìn)行提示,然后與自己想象中的虛擬世界進(jìn)行互動。
不管是合成圖像、照片甚至手繪草圖,Genie 都可以從中生成無窮無盡的可玩世界。Genie 由三個部分組成:一個潛在動作模型,用于推斷每對幀之間的潛在動作;一個視頻 tokenizer,用于將原始視頻幀轉(zhuǎn)換為離散 token;一個動態(tài)模型,用于在給定潛在動作和過去幀 token 的情況下,預(yù)測視頻的下一幀。
看到這項技術(shù)發(fā)布,很多人表示:谷歌又要來領(lǐng)導(dǎo) AI 技術(shù)了。谷歌還提出,Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。在這個假設(shè)基礎(chǔ)上,谷歌針對機(jī)器人視頻訓(xùn)練了一個 Genie 模型,作為機(jī)器人領(lǐng)域潛在世界模型應(yīng)用的概念
原文鏈接:剛剛,谷歌發(fā)布基礎(chǔ)世界模型:11B參數(shù),能生成可交互虛擬世界
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺