AI變鑒片大師，星際穿越都能看懂！賈佳亞團(tuán)隊(duì)新作，多模態(tài)大模型挑戰(zhàn)超長3小時(shí)視頻

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：AI變鑒片大師，星際穿越都能看懂！賈佳亞團(tuán)隊(duì)新作，多模態(tài)大模型挑戰(zhàn)超長3小時(shí)視頻

關(guān)鍵字：解讀,模型,視頻,圖像,上下文

文章來源：量子位

內(nèi)容字?jǐn)?shù)：5650字

內(nèi)容摘要：豐色明敏發(fā)自凹非寺量子位 | 公眾號 QbitAI啥？AI都能自己看電影大片了？賈佳亞團(tuán)隊(duì)最新研究成果，讓大模型直接學(xué)會(huì)了處理超長視頻。丟給它一部科幻大片《星際穿越》（片長2小時(shí)49分鐘）：它“看”完之后，不僅能結(jié)合電影情節(jié)和人物輕松對電影進(jìn)行點(diǎn)評：還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié)：例如：蟲洞的作用和創(chuàng)造者是誰？答：未來的智慧生物放置在土星附近，用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越。男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲？答：通過手表以摩斯密碼的方式傳遞數(shù)據(jù)。啊這，感覺電影博主的飯碗也要被AI搶走了。這就是最新多模態(tài)大模型LLaMA-VID，它支持單圖、短視頻和長視頻三種輸入。對比來看，包括GPT-4V等在內(nèi)的同類模型基本只能處理圖像。而背后原理更有看頭。據(jù)介紹，LLaMA-VID只通過一個(gè)非常簡單的辦法就達(dá)成了如上能力，那就是：把表示每一幀圖像的token數(shù)量，壓縮到僅有2個(gè)。具體效…

原文鏈接：點(diǎn)此閱讀原文：AI變鑒片大師，星際穿越都能看懂！賈佳亞團(tuán)隊(duì)新作，多模態(tài)大模型挑戰(zhàn)超長3小時(shí)視頻