原標(biāo)題:騰訊聯(lián)合智源發(fā)布升級(jí)版長文本理解基準(zhǔn)測試模型—LongBench v2
文章來源:小夏聊AIGC
內(nèi)容字?jǐn)?shù):1502字
LongBench v2:衡量大型語言模型長文本理解能力的新標(biāo)桿
大型語言模型(LLMs)的飛速發(fā)展為眾多領(lǐng)域帶來了性的變化,然而,它們?cè)谔幚黹L文本方面的能力仍有待提升。為了更好地評(píng)估和推動(dòng)LLMs長文本理解能力的發(fā)展,騰訊和智源研究院于2024年12月19日聯(lián)合發(fā)布了LongBench v2——一個(gè)專為大型語言模型量身定制的長文本理解基準(zhǔn)測試平臺(tái)。
超越現(xiàn)有標(biāo)準(zhǔn),挑戰(zhàn)極限
LongBench v2并非簡單的升級(jí),而是對(duì)長文本理解能力評(píng)估的一次重大革新。它能夠處理長度從8k到2M詞的超長文本,涵蓋了單文檔問答、多文檔問答、長文本語境學(xué)習(xí)等六大任務(wù)類別,并包含503道精心設(shè)計(jì)的四選一選擇題。這些題目的難度極高,即使是人類專家,平均準(zhǔn)確率也僅為53.7% (15分鐘內(nèi))。這種高標(biāo)準(zhǔn)的測試,將有效區(qū)分不同LLMs在長文本理解方面的實(shí)際能力。
嚴(yán)謹(jǐn)?shù)脑u(píng)測體系,確保結(jié)果可靠
LongBench v2的成功,離不開其嚴(yán)謹(jǐn)?shù)脑u(píng)測體系。所有題目均經(jīng)過嚴(yán)格的人工標(biāo)注和審核,由來自頂尖學(xué)府的標(biāo)注員參與,確保了題目的高質(zhì)量和高難度。此外,研究團(tuán)隊(duì)對(duì)傳統(tǒng)的Bradley-Terry統(tǒng)計(jì)算法進(jìn)行了改進(jìn),并引入了控制變量,有效降低了混淆因素的影響,使得模型排名更加科學(xué)、精準(zhǔn),從而更客觀地反映LLMs的真實(shí)水平。
測試結(jié)果:推理能力至關(guān)重要
LongBench v2對(duì)10個(gè)開源LLMs和6個(gè)閉源LLMs進(jìn)行了全面測試。結(jié)果顯示,引入控制變量后,模型的表現(xiàn)得到了顯著提升。尤其值得關(guān)注的是GPT-4o模型,在引入更多推理步驟后,其在多文檔問答和長文本語境學(xué)習(xí)等任務(wù)上展現(xiàn)出了卓越的性能,充分證明了推理能力對(duì)于提升模型處理長文本能力的重要性。
未來展望:引領(lǐng)長文本理解技術(shù)發(fā)展
LongBench v2的推出,為大型語言模型的評(píng)估提供了一把更加精準(zhǔn)的“尺子”,也為未來的研究指明了方向。它強(qiáng)調(diào)了提升模型自身理解和推理能力的緊迫性,為人工智能技術(shù)的發(fā)展注入了新的活力。騰訊和智源研究院的強(qiáng)強(qiáng)聯(lián)手,必將推動(dòng)長文本理解和推理技術(shù)取得突破性進(jìn)展,為人工智能的未來發(fā)展貢獻(xiàn)更多力量。我們期待LongBench v2能夠成為推動(dòng)AI領(lǐng)域進(jìn)步的重要基準(zhǔn),引領(lǐng)長文本理解技術(shù)邁向新的高度。
聯(lián)系作者
文章來源:小夏聊AIGC
作者微信:
作者簡介:專注于人工智能生成內(nèi)容的前沿信息與技術(shù)分享。我們提供AI生成藝術(shù)、文本、音樂、視頻等領(lǐng)域的最新動(dòng)態(tài)與應(yīng)用案例。每日新聞速遞、技術(shù)解讀、行業(yè)分析、專家觀點(diǎn)和創(chuàng)意展示。期待與您一起探索AI的無限潛力。歡迎關(guān)注并分享您的AI作品或?qū)氋F意見。