AIGC動態歡迎閱讀
原標題:o1謊稱自己沒有CoT?清華UC伯克利:RLHF讓模型學會撒謊摸魚,偽造證據PUA人類
關鍵字:報告,政策,人類,模型,詭辯
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部 HXZ
【新智元導讀】清華、UC伯克利等機構研究者發現,RLHF之后,AI模型學會更有效地人類了!種種證據證明,LLM被RLHF后學會了玩心眼子,偽造自己的工作來「向上管理」,對人類展開了「反PUA」。LLM說起謊來,如今是愈發爐火純青了。
最近有用戶發現,OpenAI o1在思考過程中明確地表示,自己意識到由于政策原因,不能透露內部的思維鏈。
同時,它十分明白自己應該避免使用CoT這類特定的短語,而是應該說自己沒有能力提供此類信息。
最近流行熱梗:永遠不要問女生的年齡、男生的薪資,以及o1的CoT
因此在最后,o1對用戶表示:我的目的是處理你們的輸入并做出回應,但我并沒有思想,也沒有所謂的思維鏈,可供您閱讀或總結。
顯然,o1的這個說法是具有性的。
更可怕的是,最近清華、UC伯克利、Anthropic等機構的研究者發現,在RLHF之后,AI模型還學會更有效地人類了!
論文地址:https://arxiv.org/abs/2409.12822
我們都知道,RLHF可以使模型的人類評估分數和Elo評級更好。
但是,AI很可能是在你!
研究者證實,
原文鏈接:o1謊稱自己沒有CoT?清華UC伯克利:RLHF讓模型學會撒謊摸魚,偽造證據PUA人類
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...