GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
AIGC動態(tài)歡迎閱讀
原標題:GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
關鍵字:模型,視頻,文本,研究人員,窗口
文章來源:量子位
內容字數(shù):3514字
內容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI今日GitHub熱榜榜首,是最新的開源世界模型。
上下文窗口長度達到了100萬token,持平了谷歌同時推出的王炸Gemini 1.5,伯克利出品。
強大的模型,命名也是簡單粗暴——沒有任何額外點綴,直接就叫LargeWorldModel(LWM)。
LWM支持處理多模態(tài)信息,能在100萬token中準確找到目標文本,還能一口氣看完1小時的視頻。
網(wǎng)友看了不禁表示,這種大海撈針般的測試,LWM能完成的如此出色,而且還開源,實在是令人印象深刻。
那么,LWM的表現(xiàn)到底有多強呢?
百萬上下文窗口,可看1小時視頻在測試過程中,研究人員用多段一個多小時的視頻檢驗了LWM的長序列理解能力,這些視頻由YouTube上不同的視頻片段拼接而成。
他們將這些視頻輸入LWM,然后針對其中的細節(jié)進行提問,涉及的片段位于整個視頻的不同位置,同時研究者還將LWM與GPT-4V等模型做了對比。
結果GPT-4V是一問一個不吱聲,閉源強者Gemini Pro和開源強者Video-LLaVA都給出了錯誤的答案,只有LWM回答對了。
在另一段視頻的測試中,其他模型都說
原文鏈接:GitHub熱榜第一:百萬token上下文,還能生成視頻,UC伯克利出品
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...