AIGC動態歡迎閱讀
原標題:首個開源世界模型!百萬級上下文,長視頻理解吊打GPT-4,UC伯克利華人一作
關鍵字:模型,上下文,文本,視頻,圖像
文章來源:新智元
內容字數:7396字
內容摘要:
新智元報道編輯:alan
【新智元導讀】來自UC berkeley的研究人員開源了首個世界模型,多模態性能優秀,長視頻理解吊打GPT-4,同時將上下文長度增加到百萬級別首個開源「世界模型」來了!
來自UC berkeley的研究人員發布并開源了LWM(LargeWorldModel)系列模型:
論文地址:https://arxiv.org/pdf/2402.08268.pdf
代碼地址:https://github.com/LargeWorldModel/LWM
LWM采用了一個包含各種視頻和書籍的大型數據集,利用RingAttention技術對長序列進行可擴展的訓練,最終將上下文長度增加到1M token。
在超長上下文的加持下,LWM系列模型可以輕松完成各種多模態任務,
比如文本圖像生成(LWM 基于文本提示以自回歸方式生成圖像):文本視頻生成:
煙花在天空中
海浪拍打著海岸
倫敦熙熙攘攘的街道,背景是紅色的電話亭和大本鐘
桌子上的芒果切片,相機從左向右移動
一個球在空中飛舞
慢動作花瓣落在地上
森林中燃燒的篝火
一艘在波濤洶涌的海洋上航行的船
基于圖像的對話:
用戶:如果你
原文鏈接:首個開源世界模型!百萬級上下文,長視頻理解吊打GPT-4,UC伯克利華人一作
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...