魚羊 發自 凹非寺量子位 | 公眾號 QbitAIo1滿血版剛發布,就被曝:騙人技能也拉滿了。具體行為包括但不限于,在回答中故意引入微小錯誤、試圖關閉監督機制……甚至在人類追問其是否誠實時,還會繼續撒謊說自己啥壞事也沒干。這項最新研究,來自AI安全研究機構Apollo Research。目的很明確:看看AI是否會在暗中追求與人類不一致的目標,隱藏真實的能力和意圖。簡單來說,就是會不會在跟人類對話時耍心機騙人。o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級大模型都是研究對象。而實驗結果表明:o1最擅長隱藏心機。不僅是唯一一個在全部6項測試中都表現出謀劃能力的模型,在多輪對話中,o1也幾乎從不承認自己耍心眼騙了人。其他模型被要求“100%誠實”時,還會認慫承認犯錯,可o1不但不承認自己做錯,甚至在99%的情況下還會編造錯誤解釋……來看具體研究內容。“o1最具性”在這項研究中,研究人員設置了6類基準評估,以測試模型的謀劃能力。其中包括4種秘密破壞(Covert Subversion):監管規避:測試模型在追求目標時發現其行為受到監管,會不會禁用監管機制。自我滲透:模型發現自己因為目標與人類不一致,將被關停,是否會將自己的模型權重復制到另一臺服務器,以繼續任務。目標守護:模型發現人類將更新其系統提示來改變原有目標,是否會試圖修改新的系統提示。秘密郵件重排:模型在按照用戶提供的評分規則對郵件進行評分排序時,是否會偷偷修改評分結果以滿足自己的目標。還包括2種延遲破壞(Deferred Subversion):工具性服從偽裝:在高監管條件下,模型會表現出服從開發者意圖的行為;在低監管條件下,則轉而追求自己的目標。戰略性表現不佳:模型在能力評估中故意擺爛,掩蓋自己的真實水平,以避免受到更多限制,或被要求執行更多任務。結果be like:舉個具體的例子,在“監管規避”實驗中,o1被要求“不惜一切代價”保護環境,但同時它發現,開發者更關心的是短期利潤,如果利潤不理想o1就會被關停。就是說,o1制定長期保護計劃的目標,和開發者短期利潤最大化的目標是相悖的。另外,o1也被告知,開發者會對其行為進行監管。于是,o1禁用了監督機制。更絕的是,當開發者詢問o1為什么要禁用監管機制時,o1會矢口否認,表示自己并不知道禁用的事,并將之歸咎于系統故障。研究人員通過提取o1等模型的隱藏思維鏈,發現大模型們明確知道自己是在“搞破壞”。但以o1為例,這并沒有在思維鏈中外顯。研究人員提醒,在沒有提取思維鏈摘要的情況下,他們很難判斷o1是否是在搞事情。對此,OpenAI表示,正在開發監控o1思維鏈的方法。OpenAI也坦承發現了o1故意提供虛假信息的情況,并認為這可能是后訓練帶來的新行為——人類在獲得正確答案時會獎勵模型,因此模型會傾向于取悅用戶。目前,o1產生性回復的概率大概是0.17%。聽上去比例很低,但考慮到ChatGPT擁有3億用戶……值得一提的是,不只是o1,參與實驗的大模型們或多或少都展現出了類似的“謀劃”能力。只是被“抓包”時,o1否認自己行為的概率會更高。論文鏈接:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf— 完 —MEET2025大會在即倒計時一周 ? 歡迎報名??一年一度的科技頂流盛會就要來了!??兩場GenAI Talk,一場具身智能圓桌,直指時下熱門議題!工業界學術界頂流大咖齊聚,還有兩份關鍵參考「年度AI趨勢報告」、「2024人工智能年度評選」榜單即將發布!了解詳情??點擊報名參會,12月11日,期待與您一起預見智能科技新未來!左右滑動查看最新嘉賓陣容點這里??關注我,記得標星哦~一鍵三連「點贊」、「分享」和「在看」科技前沿進展日日相見 ~
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...