Ilya牽頭，OpenAI發(fā)布超級(jí)對(duì)齊項(xiàng)目：AI對(duì)齊AI，GPT-2能監(jiān)督GPT-4

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布 Founder Park

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Ilya牽頭，OpenAI發(fā)布超級(jí)對(duì)齊項(xiàng)目：AI對(duì)齊AI，GPT-2能監(jiān)督GPT-4

文章來(lái)源：Founder Park

內(nèi)容字?jǐn)?shù)：5833字

內(nèi)容摘要：文章轉(zhuǎn)自公眾號(hào)「機(jī)器之心」。過(guò)去一年，以「預(yù)測(cè)下一個(gè) Token」為本質(zhì)的大模型已經(jīng)橫掃人類(lèi)世界的多項(xiàng)任務(wù)，展現(xiàn)了人工智能的巨大潛力。在近日的一次訪談中，OpenAI 首席科學(xué)家 Ilya Sutskever 大膽預(yù)言，如果模型能夠很好地預(yù)測(cè)下一個(gè)詞，那么意味著它能夠理解導(dǎo)致這個(gè)詞產(chǎn)生的深刻現(xiàn)實(shí)。這意味著，如果 AI 按照現(xiàn)有路徑發(fā)展下去，也許在不久的將來(lái)，一個(gè)超越人類(lèi)的人工智能系統(tǒng)就會(huì)誕生。但更加令人擔(dān)心的是，「超級(jí)人工智能」可能會(huì)帶來(lái)一些意想不到的負(fù)面后果。這也是「對(duì)齊」的意義。此前的對(duì)齊方法依賴(lài)于人類(lèi)的監(jiān)督，如在 ChatGPT 訓(xùn)練中起到關(guān)鍵作用的人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）。但未來(lái)的人工智能系統(tǒng)或許能夠做出極其復(fù)雜和富有創(chuàng)造性的行為，使人類(lèi)難以對(duì)其進(jìn)行可靠的監(jiān)督。例如，超人類(lèi)模型可能會(huì)編寫(xiě)出數(shù)百萬(wàn)行新奇的、具有潛在危險(xiǎn)的計(jì)算機(jī)代碼，即使是人類(lèi)專(zhuān)家也很難理解這些代碼。一旦人工智能…

原文鏈接：點(diǎn)此閱讀原文：Ilya牽頭，OpenAI發(fā)布超級(jí)對(duì)齊項(xiàng)目：AI對(duì)齊AI，GPT-2能監(jiān)督GPT-4