評估大模型不看輸出看「內在」，上交大新測試指標入選NeurIPS 2024

AIGC動態歡迎閱讀

原標題：評估大模型不看輸出看「內在」，上交大新測試指標入選NeurIPS 2024
關鍵字：模型,表征,語言,數據,圖像
文章來源：量子位
內容字數：0字

內容摘要：

上交大MIFA實驗室魏來投稿量子位 | 公眾號 QbitAI能夠深入大模型內部的新評測指標來了！
上交大MIFA實驗室提出了全新的大模型評估指標Diff-eRank。
不同于傳統評測方法，Diff-eRank不研究模型輸出，而是選擇了分析其背后的隱藏表征。
該方法從信息論和幾何的視角，分析大模型的隱藏表征，量化大語言模型在訓練前后如何剔除數據中的冗余信息，并以此作為衡量模型性能的指標。
對于多模態大模型，研究團隊也設計了基于秩的評估方法，用于衡量不同模態之間的對齊程度。
目前，本工作已被NeurIPS 2024接收。
將評估深入到大模型內部在進行Diff-eRank的相關工作之前，作者首先提出了這樣一個問題——
一個語言模型是如何從海量的訓練數據中「學習」到知識的？
對于這個問題，前OpenAI科學家Ilya Sutskever在2023年的演講中曾經這樣說：
大語言模型海量數據中訓練時，會逐步消除其表征空間中的冗余信息，使得數據的表征變得更加規整、結構化。
這個過程類似于「去噪」，即模型逐漸剔除數據中的無用信息，同時提取出更重要的模式和特征。
傳統的評估方法多集中于模型在下游任務

原文鏈接：評估大模型不看輸出看「內在」，上交大新測試指標入選NeurIPS 2024

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 圖像 # 數據 # 模型 # 表征 # 語言

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

評估大模型不看輸出看「內在」，上交大新測試指標入選NeurIPS 2024

AIGC動態歡迎閱讀

內容摘要：

聯系作者

122 天打造的奇跡：深入探訪 xAI 的 10 萬塊 GPU 超級 AI 計算機集群

今天，智譜「新清影」上線，率先進入有聲視頻生成時代！還要繼續開源寵粉

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

評估大模型不看輸出看「內在」，上交大新測試指標入選NeurIPS 2024

AIGC動態歡迎閱讀

內容摘要：

聯系作者

122 天打造的奇跡：深入探訪 xAI 的 10 萬塊 GPU 超級 AI 計算機集群

今天，智譜「新清影」上線，率先進入有聲視頻生成時代！還要繼續開源寵粉

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

今天，智譜「新清影」上線，率先進入有聲視頻生成時代！還要繼續開源寵粉