如果我們能夠繼續擴大大型語言模型(LLMs++)的規模(并因此獲得更好、更通用的性能),那么有理由期待到2040年(或更早)出現強大的人工智能(AI),它能夠實現大多數認知勞動的自動化,并加速進一步的AI進展。
原標題:觀點博弈:我們還應該期待AGI嗎?
文章來源:AI前線
內容字數:19403字
大型語言模型的規?;?040年AGI的希望與挑戰
本文探討了大型語言模型(LLM)規?;欠衲茏罱K實現人工通用智能(AGI)的問題。作者通過虛構的“堅信者”和“質疑者”的辯論,呈現了規?;磧煞矫娴恼摀?。
1. 數據瓶頸:質疑者的擔憂
質疑者認為,即使按照樂觀估計的擴展曲線,構建一個能撰寫科學論文的可靠AI也需要海量數據,比現有數據多出5個數量級(10萬倍)。雖然算法改進、多模態訓練和數據循環利用等技術能提高數據效率,但不足以彌補如此巨大的差距。自我對弈/合成數據也面臨評估和計算兩大挑戰,其所需計算量可能比現有模型高出9個數量級。質疑者認為,目前的LLM在常識推理和長期任務上的表現平庸,暗示其泛化能力不足,規模擴大可能無法解決根本問題。
2. 規模化的持續有效性:堅信者的觀點
堅信者反駁道,過去LLM的性能提升已經持續了8個數量級,并且在計算量增加百萬倍的情況下,性能損失微乎其微。這表明規?;匀挥行АK麄冋J為,LLM的“低效率”主要源于訓練數據和損失函數的不匹配,而通過大規模數據抓取和改進算法,可以實現顯著的性能提升。自我對弈/合成數據雖然尚未得到充分驗證,但其潛力巨大,并可能與人類進化過程類似,通過迭代改進不斷提升模型能力。
3. 基準測試的局限性
質疑者指出,常用的基準測試(如MMLU和BIG-bench)主要考察的是模型的記憶和檢索能力,而非真正的智力。這些測試中,模型的表現已經接近或超過人類水平,但這并不能說明其具備真正的推理和創造能力。在更能體現自主解決問題能力的基準測試(如SWE-bench)上,LLM的表現仍然非常糟糕。這表明,目前的規?;赡懿⑽磶碚嬲闹橇μ嵘?/p>
4. 世界模型和基于洞察力的學習
堅信者認為,LLM能夠完成一些需要“世界模型”才能完成的任務,例如根據語言描述繪制獨角獸。這表明,LLM已經學習到了關于世界和思維方式的知識。他們認為,通過規?;?,模型將自然而然地發展出更高效的元學習方法,最終實現基于洞察力的學習。
5. 質疑者的反駁和最終結論
質疑者反駁了“智能=壓縮”的觀點,認為壓縮本身并不代表智能。他們認為,即使規?;^續有效,也無法保證其能最終實現AGI。作者最終給出了70%的概率預測:規?;Y合算法和硬件進步,將在2040年實現AGI;而30%的概率認為,LLM及其類似方法將最終失敗。
文章最后還討論了模型的基于洞察力的學習能力以及靈長類動物進化是否為規模化提供了證據,進一步豐富了對規模化有效性的討論。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
相關文章
