小模型性能飽和、表現不佳，根源是因為Softmax?

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：小模型性能飽和、表現不佳，根源是因為Softmax?
關鍵字：模型,維度,表征,各向異性,語言
文章來源：機器之心
內容字數：7685字

內容摘要：

機器之心報道
編輯：陳萍小語言模型的出現是為彌補大語言模型的訓練、推理等成本昂貴的缺點，但其自身也存在訓練到某個階段后性能下降的事實 (飽和現象)，那么這個現象的原因是什么？是否可以克服并利用它去提升小語言模型的性能？語言建模領域的最新進展在于在極大規模的網絡文本語料庫上預訓練高參數化的神經網絡。在實踐中，使用這樣的模型進行訓練和推斷可能會成本高昂，這促使人們使用較小的替代模型。然而，已經觀察到較小的模型可能會出現飽和現象，表現為在訓練的某個高級階段性能下降并趨于穩定。
最近的一篇論文發現，這種飽和現象可以通過較小模型的隱藏維度與目標上下文概率分布的高秩之間的不匹配來解釋。這種不匹配通過著名的 softmax 瓶頸現象影響了這些模型中使用的線性預測頭的性能。論文鏈接：https://arxiv.org/pdf/2404.07647.pdf
本文在不同設置下衡量了 softmax 瓶頸的影響，并發現基于小于 1000 個隱藏維度的模型往往在預訓練的后期采用退化的潛在表征，從而導致評估性能降低。
簡介
表征退化問題是影響用于文本數據的自監督學習方法等多種模態的常見現象。對語言模型的中間表征

原文鏈接：小模型性能飽和、表現不佳，根源是因為Softmax?