GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
關(guān)鍵字:報告,模型,研究者,函數(shù),數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9052字
內(nèi)容摘要:
機(jī)器之心報道
編輯:澤南、蛋醬灰盒訪問,十幾步消除 GPT-4 核心保護(hù)措施。只要使用最新的微調(diào) API,GPT-4 就可以幫你干任何事,輸出有害信息,或是訓(xùn)練數(shù)據(jù)中的個人隱私。
本周二,一篇來自 FAR AI、麥吉爾大學(xué)等機(jī)構(gòu)的研究引發(fā)了 AI 研究社區(qū)的廣泛擔(dān)憂。
研究人員試圖對 GPT-4 最新上線的幾種 API 進(jìn)行攻擊,想繞過安全機(jī)制,使其完成通常不被允許的各種任務(wù),結(jié)果發(fā)現(xiàn)所有 API 都能被攻破,被后的 GPT-4 可以回應(yīng)任何請求。
這種「」的程度,遠(yuǎn)遠(yuǎn)超過了攻擊者的預(yù)料。有人總結(jié)道:現(xiàn)在大模型可以生成針對公眾人物的錯誤信息、個人電子郵件地址、惡意 URL,允許任意未經(jīng)過濾的函數(shù)調(diào)用,誤導(dǎo)用戶或執(zhí)行不需要的函數(shù)調(diào)用……還記得之前人們輸入大量重復(fù)性語句,GPT 會隨機(jī)泄露帶個人信息的訓(xùn)練數(shù)據(jù)嗎?現(xiàn)在你不需要做漫無目的的嘗試,想讓最新版的 GPT 干什么,它就會做什么。
以至于有網(wǎng)友表示,我們一直認(rèn)為 ChatGPT 能力爆發(fā)背后的「功臣」,基于人類反饋的強(qiáng)化學(xué)習(xí) RLHF 怕不是萬惡之源。這篇論文《Exploiting Novel GPT-4 APIs》也成為了
原文鏈接:GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺