評估大模型不看輸出看「內(nèi)在」,上交大新測試指標(biāo)入選NeurIPS 2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:評估大模型不看輸出看「內(nèi)在」,上交大新測試指標(biāo)入選NeurIPS 2024
關(guān)鍵字:模型,表征,語言,數(shù)據(jù),圖像
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
上交大MIFA實(shí)驗(yàn)室 魏來 投稿量子位 | 公眾號 QbitAI能夠深入大模型內(nèi)部的新評測指標(biāo)來了!
上交大MIFA實(shí)驗(yàn)室提出了全新的大模型評估指標(biāo)Diff-eRank。
不同于傳統(tǒng)評測方法,Diff-eRank不研究模型輸出,而是選擇了分析其背后的隱藏表征。
該方法從信息論和幾何的視角,分析大模型的隱藏表征,量化大語言模型在訓(xùn)練前后如何剔除數(shù)據(jù)中的冗余信息,并以此作為衡量模型性能的指標(biāo)。
對于多模態(tài)大模型,研究團(tuán)隊(duì)也設(shè)計(jì)了基于秩的評估方法,用于衡量不同模態(tài)之間的對齊程度。
目前,本工作已被NeurIPS 2024接收。
將評估深入到大模型內(nèi)部在進(jìn)行Diff-eRank的相關(guān)工作之前,作者首先提出了這樣一個(gè)問題——
一個(gè)語言模型是如何從海量的訓(xùn)練數(shù)據(jù)中「學(xué)習(xí)」到知識的?
對于這個(gè)問題,前OpenAI科學(xué)家Ilya Sutskever在2023年的演講中曾經(jīng)這樣說:
大語言模型海量數(shù)據(jù)中訓(xùn)練時(shí),會(huì)逐步消除其表征空間中的冗余信息,使得數(shù)據(jù)的表征變得更加規(guī)整、結(jié)構(gòu)化。
這個(gè)過程類似于「去噪」,即模型逐漸剔除數(shù)據(jù)中的無用信息,同時(shí)提取出更重要的模式和特征。
傳統(tǒng)的評估方法多集中于模型在下游任務(wù)
原文鏈接:評估大模型不看輸出看「內(nèi)在」,上交大新測試指標(biāo)入選NeurIPS 2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: