「大型語言模型評(píng)測(cè)」綜述

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：「大型語言模型評(píng)測(cè)」綜述
關(guān)鍵字：模型,語言,任務(wù),能力,報(bào)告
文章來源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：10906字

內(nèi)容摘要：

來源：專知
大語言模型(LargeLanguageModels,LLMs)在多種自然語言處理(NaturalLanguageProcessing,NLP)任務(wù)中展現(xiàn)出了卓越性能,并為實(shí)現(xiàn)通用語言智能提供了可能。然而隨著其應(yīng)用范圍的擴(kuò)大,如何準(zhǔn)確、全面地評(píng)估大語言模型已經(jīng)成為了一個(gè)亟待解決的問題。現(xiàn)有評(píng)測(cè)基準(zhǔn)和方法仍存在許多不足,如評(píng)測(cè)任務(wù)不合理和評(píng)測(cè)結(jié) 果不可解釋等。同時(shí),隨著模型魯棒性和公平性等其它能力或?qū)傩缘年P(guān)注度提升,對(duì)更全面、更具解釋性的評(píng)估方法的需求日益凸顯。該文深入分析了大語言模型評(píng)測(cè)的現(xiàn)狀和挑戰(zhàn),總結(jié)了現(xiàn)有評(píng)測(cè)范式,分析了現(xiàn)有評(píng)測(cè)的不足,介紹了大語言模型相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法,并探討了大語言模型評(píng)測(cè)的一些新方向。
http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1自2017年 Google提出 Transformer以來,自然語言處理的研究已逐步統(tǒng)一到這種具有靈活堆疊擴(kuò)展能力的編解碼框架下。特別是,人們可以基于 Transformer的編碼端和解碼端,通過無監(jiān)督的方式,使用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練具有通用語言能力的基礎(chǔ)模型,如基

原文鏈接：「大型語言模型評(píng)測(cè)」綜述