RLHF模型普遍存在「阿諛奉承」,從Claude到GPT-4無一幸免
AIGC動態(tài)歡迎閱讀
原標(biāo)題:RLHF模型普遍存在「阿諛奉承」,從Claude到GPT-4無一幸免
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4506字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:小舟、陳萍AI 助手經(jīng)過訓(xùn)練,可以給出人類喜歡的回答,該研究表明,這些 AI 系統(tǒng)通常會產(chǎn)生奉承人類的響應(yīng),但這些響應(yīng)并不完全準(zhǔn)確。通過分析表明,人類的反饋有助于這種行為。?不管你是身處 AI 圈還是其他領(lǐng)域,或多或少的都用過大語言模型(LLM),當(dāng)大家都在贊嘆 LLM 帶來的各種變革時,大模型的一些短板逐漸暴露出來。例如,前段時間,Google DeepMind 發(fā)現(xiàn) LLM …
原文鏈接:點(diǎn)此閱讀原文:RLHF模型普遍存在「阿諛奉承」,從Claude到GPT-4無一幸免
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...