原標題:田淵棟:2024年年終總結
文章來源:新智元
內容字數:7452字
田淵棟2024年AI研究總結及2025年展望
本文總結了田淵棟博士2024年在人工智能領域的研究成果,并展望了2025年的發展方向。
提升大語言模型推理和規劃能力
田淵棟團隊在2024年主要圍繞提升大語言模型(LLM)在困難推理和規劃問題上的能力開展研究。他們提出了一系列方法,包括:SearchFormer,通過記錄A*搜索的中間步驟作為思維鏈進行訓練;DualFormer,通過隨機移除推理鏈中的部分token和步驟,實現快思考與慢思考的動態切換;以及Coconut,利用連續隱空間減少推理鏈長度,并通過課程學習逐步壓縮思維鏈。這些方法在旅行規劃等復雜問題上取得了顯著效果,并為未來研究提供了新的方向。
利用組合優化工具增強LLM能力
除了改進LLM本身,田淵棟團隊也探索了利用現有組合優化工具來增強LLM解決困難優化問題的能力。例如,他們將自然語言問題轉化為符號表示,再調用混合整數規劃(MILP)等工具求解,最終將結果轉換回自然語言。這種方法保證了解的質量,并實現了接近實時的輸出。
提高LLM訓練和部署效率
在提高LLM訓練效率方面,GaLore方法通過對模型權重梯度進行低維投影,顯著降低了內存消耗,使得在單張RTX 4090顯卡上訓練7B參數模型成為可能。后續的Q-GaLore和Tensor-GaLore進一步優化了內存效率。在模型部署方面,MobileLLM探索了直接訓練端側小模型的技術,SpinQuant則優化了量化模型的魯棒性。MagicPIG則針對Top-K注意力機制的效率問題提出了改進方案。
《破曉之鐘》出版及AI輔助寫作
除了學術研究,田淵棟的小說《破曉之鐘》也于2024年出版。他計劃在創作下一部小說時嘗試使用AI輔助寫作,并對目前大模型在輔助寫作方面的能力進行了評價,認為雖然仍需大量人工修改,但已展現出一定的潛力。
2025年展望:個人AI工具及AGI的思考
田淵棟展望了2025年大模型將更加普及,并滲透到日常生活中。他分享了自己利用大模型開發會議管理工具和arXiv論文推薦Bot的經驗,認為未來的競爭力將越來越依賴于個人對大模型工具的使用能力。他同時對AGI進行了思考,認為AGI的關鍵在于AI是否達到人類的學習效率,并強調了系統化理論化研究的重要性。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。