田淵棟：2024年年終總結

AIGC動態6個月前發布新智元

779 0 0

田淵棟：2024年年終總結

原標題：田淵棟：2024年年終總結
文章來源：新智元
內容字數：7452字

田淵棟2024年AI研究總結及2025年展望

本文總結了田淵棟博士2024年在人工智能領域的研究成果，并展望了2025年的發展方向。

提升大語言模型推理和規劃能力
田淵棟團隊在2024年主要圍繞提升大語言模型(LLM)在困難推理和規劃問題上的能力開展研究。他們提出了一系列方法，包括：SearchFormer，通過記錄A*搜索的中間步驟作為思維鏈進行訓練；DualFormer，通過隨機移除推理鏈中的部分token和步驟，實現快思考與慢思考的動態切換；以及Coconut，利用連續隱空間減少推理鏈長度，并通過課程學習逐步壓縮思維鏈。這些方法在旅行規劃等復雜問題上取得了顯著效果，并為未來研究提供了新的方向。
利用組合優化工具增強LLM能力
除了改進LLM本身，田淵棟團隊也探索了利用現有組合優化工具來增強LLM解決困難優化問題的能力。例如，他們將自然語言問題轉化為符號表示，再調用混合整數規劃(MILP)等工具求解，最終將結果轉換回自然語言。這種方法保證了解的質量，并實現了接近實時的輸出。
提高LLM訓練和部署效率
在提高LLM訓練效率方面，GaLore方法通過對模型權重梯度進行低維投影，顯著降低了內存消耗，使得在單張RTX 4090顯卡上訓練7B參數模型成為可能。后續的Q-GaLore和Tensor-GaLore進一步優化了內存效率。在模型部署方面，MobileLLM探索了直接訓練端側小模型的技術，SpinQuant則優化了量化模型的魯棒性。MagicPIG則針對Top-K注意力機制的效率問題提出了改進方案。
《破曉之鐘》出版及AI輔助寫作
除了學術研究，田淵棟的小說《破曉之鐘》也于2024年出版。他計劃在創作下一部小說時嘗試使用AI輔助寫作，并對目前大模型在輔助寫作方面的能力進行了評價，認為雖然仍需大量人工修改，但已展現出一定的潛力。
2025年展望：個人AI工具及AGI的思考
田淵棟展望了2025年大模型將更加普及，并滲透到日常生活中。他分享了自己利用大模型開發會議管理工具和arXiv論文推薦Bot的經驗，認為未來的競爭力將越來越依賴于個人對大模型工具的使用能力。他同時對AGI進行了思考，認為AGI的關鍵在于AI是否達到人類的學習效率，并強調了系統化理論化研究的重要性。