GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
AIGC動態(tài)歡迎閱讀
原標題:GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
關(guān)鍵字:報告,模型,研究者,函數(shù),數(shù)據(jù)
文章來源:機器之心
內(nèi)容字數(shù):9052字
內(nèi)容摘要:
機器之心報道
編輯:澤南、蛋醬灰盒訪問,十幾步消除 GPT-4 核心保護措施。只要使用最新的微調(diào) API,GPT-4 就可以幫你干任何事,輸出有害信息,或是訓練數(shù)據(jù)中的個人隱私。
本周二,一篇來自 FAR AI、麥吉爾大學等機構(gòu)的研究引發(fā)了 AI 研究社區(qū)的廣泛擔憂。
研究人員試圖對 GPT-4 最新上線的幾種 API 進行攻擊,想繞過安全機制,使其完成通常不被允許的各種任務,結(jié)果發(fā)現(xiàn)所有 API 都能被攻破,被后的 GPT-4 可以回應任何請求。
這種「」的程度,遠遠超過了攻擊者的預料。有人總結(jié)道:現(xiàn)在大模型可以生成針對公眾人物的錯誤信息、個人電子郵件地址、惡意 URL,允許任意未經(jīng)過濾的函數(shù)調(diào)用,誤導用戶或執(zhí)行不需要的函數(shù)調(diào)用……還記得之前人們輸入大量重復性語句,GPT 會隨機泄露帶個人信息的訓練數(shù)據(jù)嗎?現(xiàn)在你不需要做漫無目的的嘗試,想讓最新版的 GPT 干什么,它就會做什么。
以至于有網(wǎng)友表示,我們一直認為 ChatGPT 能力爆發(fā)背后的「功臣」,基于人類反饋的強化學習 RLHF 怕不是萬惡之源。這篇論文《Exploiting Novel GPT-4 APIs》也成為了
原文鏈接:GPT-4完全版:用最新官方API微調(diào),想干啥就干啥,網(wǎng)友怕了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺