模型融合、混合專家、更小的LLM，幾篇論文看懂2024年LLM發展方向

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：模型融合、混合專家、更小的LLM，幾篇論文看懂2024年LLM發展方向
關鍵字：模型,論文,權重,地址,方法
文章來源：機器之心
內容字數：27056字

內容摘要：

選自Ahead of AI
作者：Sebastian Raschka
機器之心編譯
編輯：Panda還有 10 個月，2024 年還有很多期待空間。在過去的 2023 年中，大型語言模型（LLM）在潛力和復雜性方面都獲得了飛速的發展。展望 2024 年的開源和研究進展，似乎我們即將進入一個可喜的新階段：在不增大模型規模的前提下讓模型變得更好，甚至讓模型變得更小。
現在，2024 年的第一個月已經過去，也許是時候盤點一番新年首月進展了。近日，AI 研究者 Sebastian Raschka 發布了一份報告，介紹了四篇與上述新階段有關的重要論文。它們的研究主題簡單總結起來是這樣：
1. 權重平均和模型融合可將多個 LLM 組合成單個更好的模型，并且這個新模型還沒有傳統集成方法的典型缺陷，比如更高的資源需求。
2. 代理調優（proxy-tuning）技術可通過使用兩個小型 LLM 來提升已有大型 LLM 的性能，這個過程無需改變大模型的權重。
3. 通過將多個小型模塊組合起來創建混合專家模型，可讓所得 LLM 的效果和效率媲美甚至超越更大型的對應模型。
4. 預訓練一個小型的 1.1B 參

原文鏈接：模型融合、混合專家、更小的LLM，幾篇論文看懂2024年LLM發展方向