AIGC動態歡迎閱讀
原標題:MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」
關鍵字:社會,模型,價值觀,問題,自我
文章來源:機器之心
內容字數:7985字
內容摘要:
機器之心專欄
機器之心編輯部隨著大語言模型(LLMs)在近年來取得顯著進展,它們的能力日益增強,進而引發了一個關鍵的問題:如何確保他們與人類價值觀對齊,從而避免潛在的社會負面影響?
模型如 ChatGPT 依賴于基于人類反饋的強化學習(RLHF),這一方法通過鼓勵標注者偏好的回答并懲罰不受歡迎的反饋,提出了一種解決方案。然而,RLHF 面臨著成本高昂、難以優化等問題,以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對人類監督的依賴,Anthropic 推出了 Constitutional AI,旨在要求語言模型在回答時遵循一系列人類規則。同時,OpenAI 的研究通過采用弱模型監督強模型的方法,為超人類水平模型的對齊提供了新的視角。盡管如此,由于用戶給出的指令千變萬化,將一套固定的社會規則應用于 LLMs 顯得不夠靈活;而且,弱模型對強模型的監督提升效果尚不明顯。
為了解決這些大語言模型價值對齊的挑戰,上海交通大學、上海人工智能實驗室的科研團隊發表了新工作《Self-Alignment of Large Language Models via Monopolylogue-base
原文鏈接:MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...