GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
AIGC動態(tài)歡迎閱讀
原標(biāo)題:GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
關(guān)鍵字:模型,視頻,文本,研究人員,窗口
文章來源:量子位
內(nèi)容字?jǐn)?shù):3514字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI今日GitHub熱榜榜首,是最新的開源世界模型。
上下文窗口長度達(dá)到了100萬token,持平了谷歌同時推出的王炸Gemini 1.5,伯克利出品。
強(qiáng)大的模型,命名也是簡單粗暴——沒有任何額外點(diǎn)綴,直接就叫LargeWorldModel(LWM)。
LWM支持處理多模態(tài)信息,能在100萬token中準(zhǔn)確找到目標(biāo)文本,還能一口氣看完1小時的視頻。
網(wǎng)友看了不禁表示,這種大海撈針般的測試,LWM能完成的如此出色,而且還開源,實(shí)在是令人印象深刻。
那么,LWM的表現(xiàn)到底有多強(qiáng)呢?
百萬上下文窗口,可看1小時視頻在測試過程中,研究人員用多段一個多小時的視頻檢驗(yàn)了LWM的長序列理解能力,這些視頻由YouTube上不同的視頻片段拼接而成。
他們將這些視頻輸入LWM,然后針對其中的細(xì)節(jié)進(jìn)行提問,涉及的片段位于整個視頻的不同位置,同時研究者還將LWM與GPT-4V等模型做了對比。
結(jié)果GPT-4V是一問一個不吱聲,閉源強(qiáng)者Gemini Pro和開源強(qiáng)者Video-LLaVA都給出了錯誤的答案,只有LWM回答對了。
在另一段視頻的測試中,其他模型都說
原文鏈接:GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
