首個開源世界模型!百萬級上下文,長視頻理解吊打GPT-4,UC伯克利華人一作
AIGC動態(tài)歡迎閱讀
原標(biāo)題:首個開源世界模型!百萬級上下文,長視頻理解吊打GPT-4,UC伯克利華人一作
關(guān)鍵字:模型,上下文,文本,視頻,圖像
文章來源:新智元
內(nèi)容字?jǐn)?shù):7396字
內(nèi)容摘要:
新智元報道編輯:alan
【新智元導(dǎo)讀】來自UC berkeley的研究人員開源了首個世界模型,多模態(tài)性能優(yōu)秀,長視頻理解吊打GPT-4,同時將上下文長度增加到百萬級別首個開源「世界模型」來了!
來自UC berkeley的研究人員發(fā)布并開源了LWM(LargeWorldModel)系列模型:
論文地址:https://arxiv.org/pdf/2402.08268.pdf
代碼地址:https://github.com/LargeWorldModel/LWM
LWM采用了一個包含各種視頻和書籍的大型數(shù)據(jù)集,利用RingAttention技術(shù)對長序列進行可擴展的訓(xùn)練,最終將上下文長度增加到1M token。
在超長上下文的加持下,LWM系列模型可以輕松完成各種多模態(tài)任務(wù),
比如文本圖像生成(LWM 基于文本提示以自回歸方式生成圖像):文本視頻生成:
煙花在天空中
海浪拍打著海岸
倫敦熙熙攘攘的街道,背景是紅色的電話亭和大本鐘
桌子上的芒果切片,相機從左向右移動
一個球在空中飛舞
慢動作花瓣落在地上
森林中燃燒的篝火
一艘在波濤洶涌的海洋上航行的船
基于圖像的對話:
用戶:如果你
原文鏈接:首個開源世界模型!百萬級上下文,長視頻理解吊打GPT-4,UC伯克利華人一作
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。