上海AI Lab 搭臺(tái)，36個(gè)大模型一起角逐長(zhǎng)上下文建模能力

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：上海AI Lab 搭臺(tái)，36個(gè)大模型一起角逐長(zhǎng)上下文建模能力
關(guān)鍵字：模型,任務(wù),文本,報(bào)告,邏輯推理
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | Richard現(xiàn)在的大模型論文簡(jiǎn)直像是在比長(zhǎng)度，動(dòng)不動(dòng)就上百頁(yè)！記得前陣子小編瞅見(jiàn)那份90頁(yè)的Gemini技術(shù)報(bào)告，頓時(shí)腦袋嗡嗡作響。那會(huì)兒就幻想著：要是有個(gè)AI大腦來(lái)啃下這些”學(xué)術(shù)巨無(wú)霸”，那豈不是爽歪歪？
沒(méi)想到過(guò)了幾個(gè)月，這個(gè)幻想竟然實(shí)現(xiàn)了！如今大語(yǔ)言模型正在挑戰(zhàn)這一難題，試圖成為我們閱讀長(zhǎng)文本的得力助手。但問(wèn)題是，這些AI助手自己對(duì)付長(zhǎng)文本的能力如何呢？
近日，上海AI實(shí)驗(yàn)室推出了一個(gè)名為NeedleBench的評(píng)測(cè)框架，對(duì)36個(gè)主流大模型展開(kāi)了一場(chǎng)別開(kāi)生面的”長(zhǎng)文本拼”。這項(xiàng)研究不僅測(cè)試了模型們?cè)诓煌L(zhǎng)度文本上的表現(xiàn)，還設(shè)計(jì)了一系列漸進(jìn)式的挑戰(zhàn)任務(wù)，就像是給LLMs出了一道道難度遞增的閱讀理解題。
有趣的是，在這場(chǎng)比拼中被譽(yù)為”LLM界的高考狀元”的GPT-4竟然只拿到了第二名！反倒是Claude-3-Opus后來(lái)者居上，一舉奪魁。這個(gè)結(jié)果讓不少人大跌眼鏡，也引發(fā)了業(yè)界對(duì)大模型長(zhǎng)文本能力的新思考。
研究還發(fā)現(xiàn)，雖然這些AI模型在找出單一關(guān)鍵信息方面表現(xiàn)不錯(cuò)，就像能準(zhǔn)確回答”課文第三段第二句說(shuō)了什么”，但在需要綜合分析、邏輯推理的復(fù)雜問(wèn)題上，它們

原文鏈接：上海AI Lab 搭臺(tái)，36個(gè)大模型一起角逐長(zhǎng)上下文建模能力