GitHub熱榜第一：百萬token上下文，還能生成視頻，UC伯克利出品

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：GitHub熱榜第一：百萬token上下文，還能生成視頻，UC伯克利出品
關(guān)鍵字：模型,視頻,文本,研究人員,窗口
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3514字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI今日GitHub熱榜榜首，是最新的開源世界模型。
上下文窗口長度達(dá)到了100萬token，持平了谷歌同時(shí)推出的王炸Gemini 1.5，伯克利出品。
強(qiáng)大的模型，命名也是簡單粗暴——沒有任何額外點(diǎn)綴，直接就叫LargeWorldModel（LWM）。
LWM支持處理多模態(tài)信息，能在100萬token中準(zhǔn)確找到目標(biāo)文本，還能一口氣看完1小時(shí)的視頻。
網(wǎng)友看了不禁表示，這種大海撈針般的測試，LWM能完成的如此出色，而且還開源，實(shí)在是令人印象深刻。
那么，LWM的表現(xiàn)到底有多強(qiáng)呢？
百萬上下文窗口，可看1小時(shí)視頻在測試過程中，研究人員用多段一個(gè)多小時(shí)的視頻檢驗(yàn)了LWM的長序列理解能力，這些視頻由YouTube上不同的視頻片段拼接而成。
他們將這些視頻輸入LWM，然后針對其中的細(xì)節(jié)進(jìn)行提問，涉及的片段位于整個(gè)視頻的不同位置，同時(shí)研究者還將LWM與GPT-4V等模型做了對比。
結(jié)果GPT-4V是一問一個(gè)不吱聲，閉源強(qiáng)者Gemini Pro和開源強(qiáng)者Video-LLaVA都給出了錯(cuò)誤的答案，只有LWM回答對了。
在另一段視頻的測試中，其他模型都說

原文鏈接：GitHub熱榜第一：百萬token上下文，還能生成視頻，UC伯克利出品