強化學習之父 Rich Sutton 最新演講:用「去中心化神經(jīng)網(wǎng)絡」應對深度學習局限性
災難性遺忘是大模型時代的下一個突破口。
原標題:強化學習之父 Rich Sutton 最新演講:用「去中心化神經(jīng)網(wǎng)絡」應對深度學習局限性
文章來源:AI科技評論
內(nèi)容字數(shù):19172字
第六屆國際分布式人工智能會議(DAI 2024)要點總結(jié)
第六屆國際分布式人工智能會議(DAI 2024)于新加坡管理大學成功舉辦,會議亮點之一是邀請了多位重量級嘉賓,探討了人工智能領域的前沿研究,特別是深度學習的局限性及其解決方案。
1. 深度學習的局限性與災難性遺忘
現(xiàn)代強化學習奠基人Richard S. Sutton教授指出,當前深度學習面臨災難性遺忘、可塑性喪失和模型坍塌等問題,這些問題嚴重制約了人工智能的持續(xù)學習能力。 這些問題尤其在長時間訓練中凸顯,而傳統(tǒng)深度學習通常不會進行長時間訓練,因此這些問題容易被忽視。
2. 去中心化神經(jīng)網(wǎng)絡:一種新的解決方案
Sutton教授提出了“去中心化神經(jīng)網(wǎng)絡”的概念,其核心思想是賦予每個神經(jīng)元的目標,例如傳遞有效信息、保持自身活躍等。這種設計旨在保持“骨干”神經(jīng)元的穩(wěn)定性,同時鼓勵“邊緣”神經(jīng)元探索,增強網(wǎng)絡的適應性和持續(xù)學習能力。 他同時介紹了創(chuàng)新算法——持續(xù)反向傳播(Continual Backprop),該算法通過選擇性地重新初始化部分神經(jīng)元來提升模型的靈活性和學習效果,在多個持續(xù)學習任務中表現(xiàn)優(yōu)于傳統(tǒng)方法。
3. 持續(xù)學習的挑戰(zhàn)與證據(jù)
Sutton教授展示了深度學習在持續(xù)監(jiān)督學習中失去可塑性和在長期強化學習中崩潰的證據(jù)。 在ImageNet數(shù)據(jù)集上的實驗表明,深度學習模型在持續(xù)學習多個二元分類任務時,其性能會隨著任務數(shù)量的增加而下降,甚至低于線性基線。 在螞蟻行走強化學習任務中,深度學習模型在長時間訓練后,性能也會嚴重退化。
4. 應對挑戰(zhàn)的策略:變異與選擇性生存
為了解決深度學習的持續(xù)學習問題,Sutton教授提出需要在未充分利用的神經(jīng)元中增加額外的變化源,并保護和保留那些被證明有用的神經(jīng)元。 這是一種“生成”的策略,即嘗試各種可能性,并保留好的結(jié)果。 持續(xù)反向傳播算是基于這一策略,通過選擇性地重新初始化神經(jīng)元來實現(xiàn)。
5. 流算法的突破
會議上還介紹了阿爾伯塔大學的研究成果,即開發(fā)出在強化學習中具有競爭力的在線流算法。 這些算法無需保存數(shù)據(jù),能夠?qū)崟r處理數(shù)據(jù),這對于持續(xù)學習具有重要意義。
6. 會議其他內(nèi)容
DAI 2024涵蓋了多智能體系統(tǒng)、強化學習、深度學習、博弈論、AI Agents 和 LLM 推理等多個領域,展示了多個前沿研究成果,例如具身智能、博弈論、開放環(huán)境中的多智能體強化學習以及大語言模型驅(qū)動的代碼智能體等。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。