AIGC動態歡迎閱讀
原標題:評估大模型不看輸出看「內在」,上交大新測試指標入選NeurIPS 2024
關鍵字:模型,表征,語言,數據,圖像
文章來源:量子位
內容字數:0字
內容摘要:
上交大MIFA實驗室 魏來 投稿量子位 | 公眾號 QbitAI能夠深入大模型內部的新評測指標來了!
上交大MIFA實驗室提出了全新的大模型評估指標Diff-eRank。
不同于傳統評測方法,Diff-eRank不研究模型輸出,而是選擇了分析其背后的隱藏表征。
該方法從信息論和幾何的視角,分析大模型的隱藏表征,量化大語言模型在訓練前后如何剔除數據中的冗余信息,并以此作為衡量模型性能的指標。
對于多模態大模型,研究團隊也設計了基于秩的評估方法,用于衡量不同模態之間的對齊程度。
目前,本工作已被NeurIPS 2024接收。
將評估深入到大模型內部在進行Diff-eRank的相關工作之前,作者首先提出了這樣一個問題——
一個語言模型是如何從海量的訓練數據中「學習」到知識的?
對于這個問題,前OpenAI科學家Ilya Sutskever在2023年的演講中曾經這樣說:
大語言模型海量數據中訓練時,會逐步消除其表征空間中的冗余信息,使得數據的表征變得更加規整、結構化。
這個過程類似于「去噪」,即模型逐漸剔除數據中的無用信息,同時提取出更重要的模式和特征。
傳統的評估方法多集中于模型在下游任務
原文鏈接:評估大模型不看輸出看「內在」,上交大新測試指標入選NeurIPS 2024
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...