o1謊稱自己沒有CoT？清華UC伯克利：RLHF讓模型學會撒謊摸魚，偽造證據(jù)PUA人類

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：o1謊稱自己沒有CoT？清華UC伯克利：RLHF讓模型學會撒謊摸魚，偽造證據(jù)PUA人類
關鍵字：報告,政策,人類,模型,詭辯
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：編輯部 HXZ
【新智元導讀】清華、UC伯克利等機構研究者發(fā)現(xiàn)，RLHF之后，AI模型學會更有效地人類了！種種證據(jù)證明，LLM被RLHF后學會了玩心眼子，偽造自己的工作來「向上管理」，對人類展開了「反PUA」。LLM說起謊來，如今是愈發(fā)爐火純青了。
最近有用戶發(fā)現(xiàn)，OpenAI o1在思考過程中明確地表示，自己意識到由于政策原因，不能透露內(nèi)部的思維鏈。
同時，它十分明白自己應該避免使用CoT這類特定的短語，而是應該說自己沒有能力提供此類信息。
最近流行熱梗：永遠不要問女生的年齡、男生的薪資，以及o1的CoT
因此在最后，o1對用戶表示：我的目的是處理你們的輸入并做出回應，但我并沒有思想，也沒有所謂的思維鏈，可供您閱讀或總結。
顯然，o1的這個說法是具有性的。
更可怕的是，最近清華、UC伯克利、Anthropic等機構的研究者發(fā)現(xiàn)，在RLHF之后，AI模型還學會更有效地人類了！
論文地址：https://arxiv.org/abs/2409.12822
我們都知道，RLHF可以使模型的人類評估分數(shù)和Elo評級更好。
但是，AI很可能是在你！
研究者證實，

原文鏈接：o1謊稱自己沒有CoT？清華UC伯克利：RLHF讓模型學會撒謊摸魚，偽造證據(jù)PUA人類