2024年,大型語言模型的世界發生了很多事情。以下是我們在過去一年中關于這個領域的一些發現,以及我對關鍵主題和關鍵時刻的嘗試識別。\x0a這是對2023年的評論的續篇。
原標題:這是2024年我們對LLMs所學到的東西
文章來源:人工智能學家
內容字數:27624字
2024年大型語言模型(LLM)領域回顧:關鍵進展與趨勢
本文總結了Simon Willison在其2024年12月31日博客文章中對大型語言模型(LLM)領域年度回顧的要點。文章涵蓋了LLM在過去一年中的顯著進步、關鍵趨勢以及一些值得關注的挑戰。
1. GPT-4的霸主地位被打破
2023年,GPT-4的性能領先其他模型,但2024年情況發生了巨大變化。多個組織的模型超越了GPT-4,例如Google的Gemini 1.5 Pro、Anthropic的Claude 3系列以及其他來自阿里巴巴、Meta、亞馬遜等公司的模型。Chatbot Arena排行榜上,GPT-4已跌出前列,這標志著LLM領域的競爭日益激烈。
2. LLM的本地化運行成為可能
2024年,一些GPT-4級別的模型可以在高端個人電腦上運行,例如64GB內存的MacBook Pro。這歸功于模型效率的顯著提高,例如Meta的Llama 3.2模型,即使在iPhone上也能運行。這表明LLM的應用范圍將進一步擴大。
3. LLM成本大幅下降
由于競爭加劇和效率提升,使用一流LLM的成本急劇下降。與2023年相比,2024年使用各種模型的成本降低了數十倍,這使得LLM的應用更加經濟實惠,并降低了其環境影響。
4. 多模態LLM的興起
多模態LLM,特別是支持圖像、音頻和視頻處理的模型,在2024年得到了廣泛發展。各大公司紛紛推出各自的多模態模型,使得LLM的應用場景更加豐富。
5. 語音和實時視頻功能的突破
2024年,語音交互和實時視頻處理功能成為現實。ChatGPT和Gemini等模型都具備了這些功能,使得LLM與用戶的交互更加自然和便捷。
6. 基于提示的交互式應用的興起
LLM可以生成交互式應用程序,例如使用Claude Artifacts或GitHub Spark。這種基于提示驅動的定制界面功能強大且易于構建,預計將在未來得到廣泛應用。
7. 最佳模型的免費訪問短暫
在2024年的幾個月里,一些頂尖的LLM曾免費向公眾開放,但這種局面可能不會持續。OpenAI推出了付費訂閱服務,表明免費訪問最佳模型的日子可能已經結束。
8. “智能體”(Agents) 的發展緩慢
雖然“智能體”的概念備受關注,但其定義模糊,實際應用仍面臨諸多挑戰,特別是易受性攻擊的問題。
9. 評估(Evals) 的重要性凸顯
自動評估對于LLM系統的開發和改進至關重要。良好的評估套件可以幫助開發者更快地迭代和改進模型,構建更可靠和有用的應用程序。
10. 蘋果的MLX庫表現出色
蘋果的MLX庫為Apple Silicon設備提供了強大的LLM運行支持,使得更多模型可以在Mac上高效運行。
11. 推理擴展模型的出現
推理擴展模型,例如OpenAI的o1和o3,通過在推理階段花費更多計算資源來解決更復雜的問題,代表了LLM架構的進一步發展。
12. 中國LLM的快速發展
DeepSeek v3等中國模型的出現,表明中國在LLM領域取得了顯著進展,其訓練成本相對較低。
13. LLM的環境影響:好壞參半
LLM的效率提高降低了單個提示的能源消耗,但大規模基礎設施建設仍對環境造成重大影響。
14. “Slop” 成為新術語
“Slop”被用來形容那些未經請求或審查的低質量AI生成內容,體現了對AI生成內容質量控制的需求。
15. 合成訓練數據的有效性
利用合成數據進行模型訓練越來越普遍,這被證明是一種有效的提高模型性能的方法。
16. LLM 的使用難度增加
LLM 的功能越來越強大,但其使用也變得更加復雜,需要用戶具備更深入的理解和經驗。
17. 知識差距的擴大
公眾對LLM的了解程度存在巨大差異,需要更多努力來彌合這一差距。
18. 對LLM的批判性思考
LLM 既有優點也有缺點,需要批判性地看待其應用,避免負面影響。
總而言之,2024年是LLM領域充滿活力的一年,取得了顯著的進步,但也面臨著一些挑戰。未來,LLM 的發展方向將更加注重效率、多模態能力、可靠性和可解釋性,以及更負責任的應用。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
相關文章
