26歲OpenAI舉報(bào)人疑!死前揭ChatGPT訓(xùn)練
新智元報(bào)道編輯:Aeneas 好困【新智元導(dǎo)讀】26歲的OpenAI吹哨人,在發(fā)出公開指控不到三個(gè)月,被發(fā)現(xiàn)死在自己的公寓中。法醫(yī)認(rèn)定,為。那么,他在死前兩個(gè)月發(fā)表的一篇博文中,都說了什么?就在剛剛,消息曝出:OpenAI吹哨人,在家中離世。曾在OpenAI工作四年,指控公司版權(quán)的Suchir Balaji,上月底在舊金山公寓中被發(fā)現(xiàn)死亡,年僅26歲。舊金山警方表示,11月26日下午1時(shí)許,他們接到了一通要求查看Balaji安危的電話,但在到達(dá)后卻發(fā)現(xiàn)他已經(jīng)死亡。這位吹哨人手中掌握的信息,原本將在針對OpenAI的訴訟中發(fā)揮關(guān)鍵作用。如今,他卻意外去世。法醫(yī)辦公室認(rèn)定,為。警方也表示,「并未發(fā)現(xiàn)任何他殺證據(jù)」。他的X上的最后一篇帖子,正是介紹自己對于OpenAI訓(xùn)練ChatGPT是否違反法律的思考和分析。他也強(qiáng)調(diào),希望這不要被解讀為對ChatGPT或OpenAI本身的批評。如今,在這篇帖子下,網(wǎng)友們紛紛發(fā)出悼念。Suchir Blaji的朋友也表示,他人十分聰明,絕不像是會(huì)的人。吹哨人警告:OpenAI訓(xùn)練模型時(shí)違反原則Suchir Balaji曾參與OpenAI參與開發(fā)ChatGPT及底層模型的過程。今年10月發(fā)表的一篇博文中他指出,公司在使用新聞和其他網(wǎng)站的信息訓(xùn)練其AI模型時(shí),違反了「合理使用」原則。博文地址:https://suchir.net/fair_use.html然而,就在公開指控OpenAI違反美國版權(quán)法三個(gè)月之后,他就離世了。為什么11月底的事情12月中旬才爆出來,網(wǎng)友們也表示質(zhì)疑其實(shí),自從2022年底公開發(fā)布ChatGPT以來,OpenAI就面臨著來自作家、程序員、記者等群體的一波又一波的訴訟潮。他們認(rèn)為,OpenAI非法使用自己受版權(quán)保護(hù)的材料來訓(xùn)練AI模型,公司估值攀升至1500億美元以上的果實(shí),卻自己獨(dú)享。為此,《水星新聞報(bào)》《紐約時(shí)報(bào)》等多家報(bào)社,都在過去一年內(nèi)對OpenAI提訟。今年10月23日,《紐約時(shí)報(bào)》發(fā)表了對Balaji的采訪,他指出,OpenAI正在損害那些數(shù)據(jù)被利用的企業(yè)和創(chuàng)業(yè)者的利益。「如果你認(rèn)同我的觀點(diǎn),你就必須離開公司。這對整個(gè)互聯(lián)網(wǎng)生態(tài)系統(tǒng)而言,都不是一個(gè)可持續(xù)的模式。」一個(gè)理想主義者之死Balaji在加州長大,十幾歲時(shí),他發(fā)現(xiàn)了一則關(guān)于DeepMind讓AI自己玩Atari游戲的報(bào)道,心生向往。高中畢業(yè)后的gap year,Balaji開始探索DeepMind背后的關(guān)鍵理念——神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)系統(tǒng)。Balaji本科就讀于UC伯克利,主修計(jì)算機(jī)科學(xué)。在大學(xué)期間,他相信AI能為社會(huì)帶來巨大益處,比如治愈疾病、延緩衰老。在他看來,我們可以創(chuàng)造某種科學(xué)家,來解決這類問題。2020年,他和一批伯克利的畢業(yè)生們,共同前往OpenAI工作。然而,在加入OpenAI、擔(dān)任兩年研究員后,他的想法開始轉(zhuǎn)變。在那里,他被分配的任務(wù)是為GPT-4收集互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)神經(jīng)網(wǎng)絡(luò)花了幾個(gè)月的時(shí)間,分析了互聯(lián)網(wǎng)上幾乎所有英語文本。Balaji認(rèn)為,這種做法違反了美國關(guān)于已發(fā)表作品的「合理使用」法律。今年10月底,他在個(gè)人網(wǎng)站上發(fā)布一篇文章,論證了這一觀點(diǎn)。目前沒有任何已知因素,能夠支持「ChatGPT對其訓(xùn)練數(shù)據(jù)的使用是合理的」。但需要說明的是,這些論點(diǎn)并非僅針對ChatGPT,類似的論述也適用于各個(gè)領(lǐng)域的眾多生成式AI產(chǎn)品。根據(jù)《紐約時(shí)報(bào)》律師的說法,Balaji掌握著「獨(dú)特的相關(guān)文件」,在紐約時(shí)報(bào)對OpenAI的訴訟中,這些文件極為有利。在準(zhǔn)備取證前,紐約時(shí)報(bào)提到,至少12人(多為OpenAI的前任或現(xiàn)任員工)掌握著對案件有幫助的材料。在過去一年中,OpenAI的估值已經(jīng)翻了一倍,但新聞機(jī)構(gòu)認(rèn)為,該公司和微軟抄襲和盜用了自己的文章,嚴(yán)重?fù)p害了它們的商業(yè)模式。訴訟書指出——微軟和OpenAI輕易地攫取了記者、新聞工作者、評論員、編輯等為地方報(bào)紙作出貢獻(xiàn)的勞動(dòng)成果——完全無視這些為地方社區(qū)提供新聞的創(chuàng)作者和發(fā)布者的付出,更遑論他們的法律權(quán)利。而對于這些指控,OpenAI予以堅(jiān)決否認(rèn)。他們強(qiáng)調(diào),大模型訓(xùn)練中的所有工作,都符合「合理使用」法律規(guī)定。為什么說ChatGPT沒有「合理使用」數(shù)據(jù)為什么OpenAI違反了「合理使用」法?Balaji在長篇博文中,列出了詳盡的分析。他引用了1976年《版權(quán)法》第107條中對「合理使用」的定義。是否符合「合理使用」,應(yīng)考慮的因素包括以下四條:(1)使用的目的和性質(zhì),包括該使用是否具有商業(yè)性質(zhì)或是否用于非營利教育目的;(2)受版權(quán)保護(hù)作品的性質(zhì);(3)所使用部分相對于整個(gè)受版權(quán)保護(hù)作品的數(shù)量和實(shí)質(zhì)性;(4)該使用對受版權(quán)保護(hù)作品的潛在市場或價(jià)值的影響。按(4)、(1)、(2)、(3)的順序,Balaji做了詳細(xì)論證。因素(4):對受版權(quán)保護(hù)作品的潛在市場影響由于ChatGPT訓(xùn)練集對市場價(jià)值的影響,會(huì)因數(shù)據(jù)來源而異,而且由于其訓(xùn)練集并未公開,這個(gè)問題無法直接回答。不過,某些研究可以量化這個(gè)結(jié)果。《生成式AI對在線知識社區(qū)的影響》發(fā)現(xiàn),在ChatGPT發(fā)布后,Stack Overflow的訪問量下降了約12%。此外,ChatGPT發(fā)布后每個(gè)主題的提問數(shù)量也有所下降。提問者的平均賬戶年齡也在ChatGPT發(fā)布后呈上升趨勢,這表明新成員要么沒有加入,要么正在離開社區(qū)。而Stack Overflow,顯然不是唯一受ChatGPT影響的網(wǎng)站。例如,作業(yè)幫助網(wǎng)站Chegg在報(bào)告ChatGPT影響其增長后,股價(jià)下跌了40%。當(dāng)然,OpenAI和谷歌這樣的模型開發(fā)商,也和Stack Overflow、Reddit、美聯(lián)社、News Corp等簽訂了數(shù)據(jù)許可協(xié)議。但簽署了協(xié)議,數(shù)據(jù)就是「合理使用」嗎?總之,鑒于數(shù)據(jù)許可市場的存在,在未獲得類似許可協(xié)議的情況下使用受版權(quán)保護(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練也構(gòu)成了市場利益損害,因?yàn)檫@剝奪了版權(quán)持有人的合法收入來源。因素(1):使用目的和性質(zhì),是商業(yè)性質(zhì),還是教育目的書評家可以在評論中引用某書的片段,雖然這可能會(huì)損害后者的市場價(jià)值,但仍被視為合理使用,這是因?yàn)椋邲]有替代或競爭關(guān)系。這種替代使用和非替代使用之間的區(qū)別,源自1841年的「Folsom訴Marsh案」,這是一個(gè)確立合理使用原則的里程碑案例。問題來了——作為一款商業(yè)產(chǎn)品,ChatGPT是否與用于訓(xùn)練它的數(shù)據(jù)具有相似的用途?顯然,在這個(gè)過程中,ChatGPT創(chuàng)造了與原始內(nèi)容形成直接競爭的替代品。比如,如果想知道「為什么在浮點(diǎn)數(shù)運(yùn)算中,0.1+0. 2=0.30000000000000004?」這種編程問題,就可以直接向ChatGPT(左)提問,而不必再去搜索Stack Overflow(右)。因素(2):受版權(quán)保護(hù)作品的性質(zhì)這一因素,是各項(xiàng)標(biāo)準(zhǔn)中影響力最小的一個(gè),因此不作詳細(xì)討論。因素(3):使用部分相對于整體受保護(hù)作品的數(shù)量及實(shí)質(zhì)性考慮這一因素,可以有兩種解釋——(1)模型的訓(xùn)練輸入包含了受版權(quán)保護(hù)數(shù)據(jù)的完整副本,因此「使用量」實(shí)際上是整個(gè)受版權(quán)保護(hù)作品。這不利于「合理使用」。(2)模型的輸出內(nèi)容幾乎不會(huì)直接復(fù)制受版權(quán)保護(hù)的數(shù)據(jù),因此「使用量」可以視為接近零。這種觀點(diǎn)支持「合理使用」。哪一種更符合現(xiàn)實(shí)?為此,作者采用信息論,對此進(jìn)行了量化分析。在信息論中,最基本的計(jì)量單位是比特,代表著一個(gè)是/否的二元選擇。在一個(gè)分布中,平均信息量稱為熵,同樣以比特為單位(根據(jù)香農(nóng)的研究,英文文本的熵值約在每個(gè)字符0.6至1.3比特之間)。兩個(gè)分布之間共享的信息量稱為互信息(MI),其計(jì)算公式為:在公式中,X和Y表示隨機(jī)變量,H(X)是X的邊際熵,H(X|Y)是在已知Y的情況下X的條件熵。如果將X視為原創(chuàng)作品,Y視為其衍生作品,那么互信息I(X;Y)就表示創(chuàng)作Y時(shí)借鑒了多少X中的信息。對于因素3,重點(diǎn)關(guān)注的是互信息相對于原創(chuàng)作品信息量的比例,即相對互信息(RMI),定義如下:此概念可用簡單的視覺模型來理解:如果用紅色圓圈代表原創(chuàng)作品中的信息,藍(lán)色圓圈代表新作品中的信息,那么相對互信息就是兩個(gè)圓圈重疊部分與紅色圓圈面積的比值:在生成式AI領(lǐng)域中,重點(diǎn)關(guān)注相對互信息(RMI),其中X表示潛在的訓(xùn)練數(shù)據(jù)集,Y表示模型生成的輸出集合,而f則代表模型的訓(xùn)練過程以及從生成模型中進(jìn)行采樣的過程:在實(shí)踐中,計(jì)算H(Y|X)——即已訓(xùn)練生成模型輸出的信息熵——相對容易。但要估算H(Y)——即在所有可能訓(xùn)練數(shù)據(jù)集上的模型輸出總體信息熵——?jiǎng)t極其困難。至于H(X)——訓(xùn)練數(shù)據(jù)分布的真實(shí)信息熵——雖然計(jì)算困難但仍是可行的。可以作出一個(gè)合理假設(shè):H(Y) ≥ H(X)。這個(gè)假設(shè)是有依據(jù)的,因?yàn)橥昝罃M合訓(xùn)練分布的生成模型會(huì)呈現(xiàn)H(Y) = H(X)的特征,同樣,過度擬合并且記憶訓(xùn)練數(shù)據(jù)的模型也是如此。而對于欠擬合的生成模型,可能會(huì)引入額外的噪聲,導(dǎo)致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定一個(gè)下限:這個(gè)下限背后的基本原理是:輸出的信息熵越低,就越可能包含來自模型訓(xùn)練數(shù)據(jù)的信息。在極端情況下,就會(huì)導(dǎo)致「內(nèi)容重復(fù)輸出」的問題,即模型會(huì)以確定性的方式,輸出訓(xùn)練數(shù)據(jù)中的片段。即使在非確定性的輸出中,訓(xùn)練數(shù)據(jù)的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個(gè)輸出內(nèi)容中,而不是簡單的直接復(fù)制。從理論上講,模型輸出的信息熵并不需要低于原始數(shù)據(jù)的真實(shí)信息熵,但在實(shí)際開發(fā)中,模型開發(fā)者往往傾向于選擇讓輸出熵更低的訓(xùn)練和部署方法。這主要是因?yàn)椋刂蹈叩妮敵鲈诓蓸舆^程中會(huì)包含更多隨機(jī)性,容易導(dǎo)致內(nèi)容缺乏連貫性或產(chǎn)生虛假信息,也就是「幻覺」。如何降低信息熵?數(shù)據(jù)重復(fù)現(xiàn)象在模型訓(xùn)練過程中,讓模型多次接觸同一數(shù)據(jù)樣本是一種很常見的做法。但如果重復(fù)次數(shù)過多,模型就會(huì)完整地記下這些數(shù)據(jù)樣本,并在輸出時(shí)簡單地重復(fù)這些內(nèi)容。舉個(gè)例子,我們先在莎士比亞作品集的部分內(nèi)容上對GPT-2進(jìn)行微調(diào)。然后用不同顏色來區(qū)分每個(gè)token的信息熵值,其中紅色表示較高的隨機(jī)性,綠色表示較高的確定性。當(dāng)僅用數(shù)據(jù)樣本訓(xùn)練一次時(shí),模型對「First Citizen」(第一公民)這一提示的補(bǔ)全內(nèi)容雖然不夠連貫,但顯示出高熵值和創(chuàng)新性。然而,在重復(fù)訓(xùn)練十次后,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,并在接收到提示后機(jī)械地重復(fù)這些內(nèi)容。在重復(fù)訓(xùn)練五次時(shí),模型表現(xiàn)出一種介于簡單重復(fù)和創(chuàng)造性生成之間的狀態(tài)——輸出內(nèi)容中既有新創(chuàng)作的部分,也有記憶的內(nèi)容。假設(shè)英語文本的真實(shí)熵值約為每字符0.95比特,那么這些輸出中就有大約的內(nèi)容是來自訓(xùn)練數(shù)據(jù)集。強(qiáng)化學(xué)習(xí)機(jī)制ChatGPT產(chǎn)生低熵輸出的主要原因在于,它采用了強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練——特別是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。RLHF傾向于降低模型的熵值,因?yàn)槠渲饕繕?biāo)之一是降低「幻覺」的發(fā)生率,而這種「幻覺」通常源于采樣過程中的隨機(jī)性。理論上,一個(gè)熵值為零的模型可以完全避免「幻覺」,但這樣的模型實(shí)際上就變成了訓(xùn)練數(shù)據(jù)集的簡單檢索工具,而非真正的生成模型。下面是幾個(gè)向ChatGPT提出查詢的示例,以及對應(yīng)輸出token的熵值:根據(jù),可以估計(jì)這些輸出中約有73%到94%的內(nèi)容,對應(yīng)于訓(xùn)練數(shù)據(jù)集中的信息。如果考慮RLHF的影響(導(dǎo)致),這個(gè)估計(jì)值可能偏高,但熵值與訓(xùn)練數(shù)據(jù)使用量之間的相關(guān)性依然十分明顯。例如,即使不了解ChatGPT的訓(xùn)練數(shù)據(jù)集,我們也會(huì)發(fā)現(xiàn)它講的笑話全是靠記憶,因?yàn)檫@些內(nèi)容幾乎都是以確定性方式生成的。這種分析方法雖然比較粗略,但它揭示了訓(xùn)練數(shù)據(jù)集中的版權(quán)內(nèi)容如何影響模型輸出。但更重要的是,這種影響十分深遠(yuǎn)。即使是對因素(3)做出更寬松的解釋,也難以支持「合理使用」的主張。最終,Suchir Balaji得出結(jié)論:從這4個(gè)因素來看,它們幾乎都不支持「ChatGPT在合理使用訓(xùn)練數(shù)據(jù)」。10月23日,Balaji發(fā)出這篇博客。一個(gè)月后,他死于自己的公寓。參考資料:https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobilehttps://suchir.net/fair_use.html