「大型語言模型評(píng)測(cè)」綜述
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「大型語言模型評(píng)測(cè)」綜述
關(guān)鍵字:模型,語言,任務(wù),能力,報(bào)告
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):10906字
內(nèi)容摘要:
來源:專知
大語言模型(LargeLanguageModels,LLMs)在多種自然語言處理(NaturalLanguageProcessing,NLP)任 務(wù)中展現(xiàn)出了卓越性能,并為實(shí)現(xiàn)通用語言智能提供了可能。然而隨著其應(yīng)用范圍的擴(kuò)大,如何準(zhǔn)確、全面地評(píng)估 大語言模型已經(jīng)成為了一個(gè)亟待解決的問題。現(xiàn)有評(píng)測(cè)基準(zhǔn)和方法仍存在許多不足,如評(píng)測(cè)任務(wù)不合理和評(píng)測(cè)結(jié) 果不可解釋等。同時(shí),隨著模型魯棒性和公平性等其它能力或?qū)傩缘年P(guān)注度提升,對(duì)更全面、更具解釋性的評(píng)估方 法的需求日益凸顯。該文深入分析了大語言模型評(píng)測(cè)的現(xiàn)狀和挑戰(zhàn),總結(jié)了現(xiàn)有評(píng)測(cè)范式,分析了現(xiàn)有評(píng)測(cè)的不 足,介紹了大語言模型相關(guān)的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法,并探討了大語言模型評(píng)測(cè)的一些新方向。
http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1自2017年 Google提出 Transformer以來,自 然語言處理的研究已逐步統(tǒng)一到這種具有靈活堆疊 擴(kuò)展能力的編解碼框架下。特別是,人們可以基于 Transformer的編碼端和解碼端,通過無監(jiān)督的方 式,使用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練具有通用語言能力的基 礎(chǔ)模型,如基
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)