上海AI Lab 搭臺(tái),36個(gè)大模型一起角逐長(zhǎng)上下文建模能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:上海AI Lab 搭臺(tái),36個(gè)大模型一起角逐長(zhǎng)上下文建模能力
關(guān)鍵字:模型,任務(wù),文本,報(bào)告,邏輯推理
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Richard現(xiàn)在的大模型論文簡(jiǎn)直像是在比長(zhǎng)度,動(dòng)不動(dòng)就上百頁(yè)!記得前陣子小編瞅見(jiàn)那份90頁(yè)的Gemini技術(shù)報(bào)告,頓時(shí)腦袋嗡嗡作響。那會(huì)兒就幻想著:要是有個(gè)AI大腦來(lái)啃下這些”學(xué)術(shù)巨無(wú)霸”,那豈不是爽歪歪?
沒(méi)想到過(guò)了幾個(gè)月,這個(gè)幻想竟然實(shí)現(xiàn)了!如今大語(yǔ)言模型正在挑戰(zhàn)這一難題,試圖成為我們閱讀長(zhǎng)文本的得力助手。但問(wèn)題是,這些AI助手自己對(duì)付長(zhǎng)文本的能力如何呢?
近日,上海AI實(shí)驗(yàn)室推出了一個(gè)名為NeedleBench的評(píng)測(cè)框架,對(duì)36個(gè)主流大模型展開(kāi)了一場(chǎng)別開(kāi)生面的”長(zhǎng)文本拼”。這項(xiàng)研究不僅測(cè)試了模型們?cè)诓煌L(zhǎng)度文本上的表現(xiàn),還設(shè)計(jì)了一系列漸進(jìn)式的挑戰(zhàn)任務(wù),就像是給LLMs出了一道道難度遞增的閱讀理解題。
有趣的是,在這場(chǎng)比拼中被譽(yù)為”LLM界的高考狀元”的GPT-4竟然只拿到了第二名!反倒是Claude-3-Opus后來(lái)者居上,一舉奪魁。這個(gè)結(jié)果讓不少人大跌眼鏡,也引發(fā)了業(yè)界對(duì)大模型長(zhǎng)文本能力的新思考。
研究還發(fā)現(xiàn),雖然這些AI模型在找出單一關(guān)鍵信息方面表現(xiàn)不錯(cuò),就像能準(zhǔn)確回答”課文第三段第二句說(shuō)了什么”,但在需要綜合分析、邏輯推理的復(fù)雜問(wèn)題上,它們
原文鏈接:上海AI Lab 搭臺(tái),36個(gè)大模型一起角逐長(zhǎng)上下文建模能力
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: