AI變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長3小時視頻
AIGC動態(tài)歡迎閱讀
原標(biāo)題:AI變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長3小時視頻
文章來源:量子位
內(nèi)容字?jǐn)?shù):5650字
內(nèi)容摘要:豐色 明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAI啥?AI都能自己看電影大片了?賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會了處理超長視頻。丟給它一部科幻大片《星際穿越》(片長2小時49分鐘):它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對電影進(jìn)行點(diǎn)評:還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié):例如:蟲洞的作用和創(chuàng)造者是誰?答:未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越。男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲?答:通過手表以摩斯密碼的方式傳遞數(shù)據(jù)。啊這,感覺電影博主的飯碗也要被AI搶走了。這就是最新多模態(tài)大模型LLaMA-VID,它支持單圖、短視頻和長視頻三種輸入。對比來看,包括GPT-4V等在內(nèi)的同類模型基本只能處理圖像。而背后原理更有看頭。據(jù)介紹,LLaMA-VID只通過一個非常簡單的辦法就達(dá)成了如上能力,那就是:把表示每一幀圖像的token數(shù)量,壓縮到僅有2個。具體效…
原文鏈接:點(diǎn)此閱讀原文:AI變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長3小時視頻
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破