国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

26歲OpenAI舉報人疑!死前揭ChatGPT訓練

AIGC動態11個月前發布 新智元
504 0 0

新智元報道編輯:Aeneas 好困【新智元導讀】26歲的OpenAI吹哨人,在發出公開指控不到三個月,被發現死在自己的公寓中。法醫認定,為。那么,他在死前兩個月發表的一篇博文中,都說了什么?就在剛剛,消息曝出:OpenAI吹哨人,在家中離世。曾在OpenAI工作四年,指控公司版權的Suchir Balaji,上月底在舊金山公寓中被發現死亡,年僅26歲。舊金山警方表示,11月26日下午1時許,他們接到了一通要求查看Balaji安危的電話,但在到達后卻發現他已經死亡。這位吹哨人手中掌握的信息,原本將在針對OpenAI的訴訟中發揮關鍵作用。如今,他卻意外去世。法醫辦公室認定,為。警方也表示,「并未發現任何他殺證據」。他的X上的最后一篇帖子,正是介紹自己對于OpenAI訓練ChatGPT是否違反法律的思考和分析。他也強調,希望這不要被解讀為對ChatGPT或OpenAI本身的批評。如今,在這篇帖子下,網友們紛紛發出悼念。Suchir Blaji的朋友也表示,他人十分聰明,絕不像是會的人。吹哨人警告:OpenAI訓練模型時違反原則Suchir Balaji曾參與OpenAI參與開發ChatGPT及底層模型的過程。今年10月發表的一篇博文中他指出,公司在使用新聞和其他網站的信息訓練其AI模型時,違反了「合理使用」原則。博文地址:https://suchir.net/fair_use.html然而,就在公開指控OpenAI違反美國版權法三個月之后,他就離世了。為什么11月底的事情12月中旬才爆出來,網友們也表示質疑其實,自從2022年底公開發布ChatGPT以來,OpenAI就面臨著來自作家、程序員、記者等群體的一波又一波的訴訟潮。他們認為,OpenAI非法使用自己受版權保護的材料來訓練AI模型,公司估值攀升至1500億美元以上的果實,卻自己獨享。為此,《水星新聞報》《紐約時報》等多家報社,都在過去一年內對OpenAI提訟。今年10月23日,《紐約時報》發表了對Balaji的采訪,他指出,OpenAI正在損害那些數據被利用的企業和創業者的利益。「如果你認同我的觀點,你就必須離開公司。這對整個互聯網生態系統而言,都不是一個可持續的模式。」一個理想主義者之死Balaji在加州長大,十幾歲時,他發現了一則關于DeepMind讓AI自己玩Atari游戲的報道,心生向往。高中畢業后的gap year,Balaji開始探索DeepMind背后的關鍵理念——神經網絡數學系統。Balaji本科就讀于UC伯克利,主修計算機科學。在大學期間,他相信AI能為社會帶來巨大益處,比如治愈疾病、延緩衰老。在他看來,我們可以創造某種科學家,來解決這類問題。2020年,他和一批伯克利的畢業生們,共同前往OpenAI工作。然而,在加入OpenAI、擔任兩年研究員后,他的想法開始轉變。在那里,他被分配的任務是為GPT-4收集互聯網數據,這個神經網絡花了幾個月的時間,分析了互聯網上幾乎所有英語文本。Balaji認為,這種做法違反了美國關于已發表作品的「合理使用」法律。今年10月底,他在個人網站上發布一篇文章,論證了這一觀點。目前沒有任何已知因素,能夠支持「ChatGPT對其訓練數據的使用是合理的」。但需要說明的是,這些論點并非僅針對ChatGPT,類似的論述也適用于各個領域的眾多生成式AI產品。根據《紐約時報》律師的說法,Balaji掌握著「獨特的相關文件」,在紐約時報對OpenAI的訴訟中,這些文件極為有利。在準備取證前,紐約時報提到,至少12人(多為OpenAI的前任或現任員工)掌握著對案件有幫助的材料。在過去一年中,OpenAI的估值已經翻了一倍,但新聞機構認為,該公司和微軟抄襲和盜用了自己的文章,嚴重損害了它們的商業模式。訴訟書指出——微軟和OpenAI輕易地攫取了記者、新聞工作者、評論員、編輯等為地方報紙作出貢獻的勞動成果——完全無視這些為地方社區提供新聞的創作者和發布者的付出,更遑論他們的法律權利。而對于這些指控,OpenAI予以堅決否認。他們強調,大模型訓練中的所有工作,都符合「合理使用」法律規定。為什么說ChatGPT沒有「合理使用」數據為什么OpenAI違反了「合理使用」法?Balaji在長篇博文中,列出了詳盡的分析。他引用了1976年《版權法》第107條中對「合理使用」的定義。是否符合「合理使用」,應考慮的因素包括以下四條:(1)使用的目的和性質,包括該使用是否具有商業性質或是否用于非營利教育目的;(2)受版權保護作品的性質;(3)所使用部分相對于整個受版權保護作品的數量和實質性;(4)該使用對受版權保護作品的潛在市場或價值的影響。按(4)、(1)、(2)、(3)的順序,Balaji做了詳細論證。因素(4):對受版權保護作品的潛在市場影響由于ChatGPT訓練集對市場價值的影響,會因數據來源而異,而且由于其訓練集并未公開,這個問題無法直接回答。不過,某些研究可以量化這個結果。《生成式AI對在線知識社區的影響》發現,在ChatGPT發布后,Stack Overflow的訪問量下降了約12%。此外,ChatGPT發布后每個主題的提問數量也有所下降。提問者的平均賬戶年齡也在ChatGPT發布后呈上升趨勢,這表明新成員要么沒有加入,要么正在離開社區。而Stack Overflow,顯然不是唯一受ChatGPT影響的網站。例如,作業幫助網站Chegg在報告ChatGPT影響其增長后,股價下跌了40%。當然,OpenAI和谷歌這樣的模型開發商,也和Stack Overflow、Reddit、美聯社、News Corp等簽訂了數據許可協議。但簽署了協議,數據就是「合理使用」嗎?總之,鑒于數據許可市場的存在,在未獲得類似許可協議的情況下使用受版權保護的數據進行訓練也構成了市場利益損害,因為這剝奪了版權持有人的合法收入來源。因素(1):使用目的和性質,是商業性質,還是教育目的書評家可以在評論中引用某書的片段,雖然這可能會損害后者的市場價值,但仍被視為合理使用,這是因為,二者沒有替代或競爭關系。這種替代使用和非替代使用之間的區別,源自1841年的「Folsom訴Marsh案」,這是一個確立合理使用原則的里程碑案例。問題來了——作為一款商業產品,ChatGPT是否與用于訓練它的數據具有相似的用途?顯然,在這個過程中,ChatGPT創造了與原始內容形成直接競爭的替代品。比如,如果想知道「為什么在浮點數運算中,0.1+0. 2=0.30000000000000004?」這種編程問題,就可以直接向ChatGPT(左)提問,而不必再去搜索Stack Overflow(右)。因素(2):受版權保護作品的性質這一因素,是各項標準中影響力最小的一個,因此不作詳細討論。因素(3):使用部分相對于整體受保護作品的數量及實質性考慮這一因素,可以有兩種解釋——(1)模型的訓練輸入包含了受版權保護數據的完整副本,因此「使用量」實際上是整個受版權保護作品。這不利于「合理使用」。(2)模型的輸出內容幾乎不會直接復制受版權保護的數據,因此「使用量」可以視為接近零。這種觀點支持「合理使用」。哪一種更符合現實?為此,作者采用信息論,對此進行了量化分析。在信息論中,最基本的計量單位是比特,代表著一個是/否的二元選擇。在一個分布中,平均信息量稱為熵,同樣以比特為單位(根據香農的研究,英文文本的熵值約在每個字符0.6至1.3比特之間)。兩個分布之間共享的信息量稱為互信息(MI),其計算公式為:在公式中,X和Y表示隨機變量,H(X)是X的邊際熵,H(X|Y)是在已知Y的情況下X的條件熵。如果將X視為原創作品,Y視為其衍生作品,那么互信息I(X;Y)就表示創作Y時借鑒了多少X中的信息。對于因素3,重點關注的是互信息相對于原創作品信息量的比例,即相對互信息(RMI),定義如下:此概念可用簡單的視覺模型來理解:如果用紅色圓圈代表原創作品中的信息,藍色圓圈代表新作品中的信息,那么相對互信息就是兩個圓圈重疊部分與紅色圓圈面積的比值:在生成式AI領域中,重點關注相對互信息(RMI),其中X表示潛在的訓練數據集,Y表示模型生成的輸出集合,而f則代表模型的訓練過程以及從生成模型中進行采樣的過程:在實踐中,計算H(Y|X)——即已訓練生成模型輸出的信息熵——相對容易。但要估算H(Y)——即在所有可能訓練數據集上的模型輸出總體信息熵——則極其困難。至于H(X)——訓練數據分布的真實信息熵——雖然計算困難但仍是可行的。可以作出一個合理假設:H(Y) ≥ H(X)。這個假設是有依據的,因為完美擬合訓練分布的生成模型會呈現H(Y) = H(X)的特征,同樣,過度擬合并且記憶訓練數據的模型也是如此。而對于欠擬合的生成模型,可能會引入額外的噪聲,導致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定一個下限:這個下限背后的基本原理是:輸出的信息熵越低,就越可能包含來自模型訓練數據的信息。在極端情況下,就會導致「內容重復輸出」的問題,即模型會以確定性的方式,輸出訓練數據中的片段。即使在非確定性的輸出中,訓練數據的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個輸出內容中,而不是簡單的直接復制。從理論上講,模型輸出的信息熵并不需要低于原始數據的真實信息熵,但在實際開發中,模型開發者往往傾向于選擇讓輸出熵更低的訓練和部署方法。這主要是因為,熵值高的輸出在采樣過程中會包含更多隨機性,容易導致內容缺乏連貫性或產生虛假信息,也就是「幻覺」。如何降低信息熵?數據重復現象在模型訓練過程中,讓模型多次接觸同一數據樣本是一種很常見的做法。但如果重復次數過多,模型就會完整地記下這些數據樣本,并在輸出時簡單地重復這些內容。舉個例子,我們先在莎士比亞作品集的部分內容上對GPT-2進行微調。然后用不同顏色來區分每個token的信息熵值,其中紅色表示較高的隨機性,綠色表示較高的確定性。當僅用數據樣本訓練一次時,模型對「First Citizen」(第一公民)這一提示的補全內容雖然不夠連貫,但顯示出高熵值和創新性。然而,在重復訓練十次后,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,并在接收到提示后機械地重復這些內容。在重復訓練五次時,模型表現出一種介于簡單重復和創造性生成之間的狀態——輸出內容中既有新創作的部分,也有記憶的內容。假設英語文本的真實熵值約為每字符0.95比特,那么這些輸出中就有大約的內容是來自訓練數據集。強化學習機制ChatGPT產生低熵輸出的主要原因在于,它采用了強化學習進行后訓練——特別是基于人類反饋的強化學習(RLHF)。RLHF傾向于降低模型的熵值,因為其主要目標之一是降低「幻覺」的發生率,而這種「幻覺」通常源于采樣過程中的隨機性。理論上,一個熵值為零的模型可以完全避免「幻覺」,但這樣的模型實際上就變成了訓練數據集的簡單檢索工具,而非真正的生成模型。下面是幾個向ChatGPT提出查詢的示例,以及對應輸出token的熵值:根據,可以估計這些輸出中約有73%到94%的內容,對應于訓練數據集中的信息。如果考慮RLHF的影響(導致),這個估計值可能偏高,但熵值與訓練數據使用量之間的相關性依然十分明顯。例如,即使不了解ChatGPT的訓練數據集,我們也會發現它講的笑話全是靠記憶,因為這些內容幾乎都是以確定性方式生成的。這種分析方法雖然比較粗略,但它揭示了訓練數據集中的版權內容如何影響模型輸出。但更重要的是,這種影響十分深遠。即使是對因素(3)做出更寬松的解釋,也難以支持「合理使用」的主張。最終,Suchir Balaji得出結論:從這4個因素來看,它們幾乎都不支持「ChatGPT在合理使用訓練數據」。10月23日,Balaji發出這篇博客。一個月后,他死于自己的公寓。參考資料:https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobilehttps://suchir.net/fair_use.html

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        午夜精品久久久久影视| 色一情一乱一乱一91av| 欧美成人官网二区| 91精品国产91久久综合桃花| 欧美精品在线视频| 欧美tickling网站挠脚心| 午夜精品福利一区二区三区蜜桃| 在线国产电影不卡| 日韩手机在线导航| 国产精品欧美综合在线| 91麻豆精品国产91久久久| 国产蜜臀97一区二区三区| 亚洲视频电影在线| 日韩av在线播放中文字幕| 国产成人一区二区精品非洲| 91碰在线视频| 日韩一区二区免费高清| 极品少妇一区二区三区精品视频| 国产成人亚洲综合a∨婷婷图片| 久久天堂av综合合色蜜桃网| 亚洲男同1069视频| 国产一区二区剧情av在线| 色欧美88888久久久久久影院| 亚洲欧美成aⅴ人在线观看| 欧美日韩电影在线| 一区二区三区四区不卡视频| 激情五月播播久久久精品| 3d动漫精品啪啪一区二区竹菊| 日韩国产在线观看一区| 99久久精品国产麻豆演员表| 精品国产乱码久久| 欧美aaaaaa午夜精品| 欧美午夜精品久久久久久孕妇 | 国产在线播放一区二区三区| 亚洲欧美色一区| 欧美tickling挠脚心丨vk| 91福利国产精品| 一区二区三区中文字幕精品精品| 欧美猛男gaygay网站| 成人高清免费在线播放| 精品国产免费人成电影在线观看四季| 97久久精品人人做人人爽| 玖玖九九国产精品| 精品精品国产高清一毛片一天堂| 日本久久电影网| 成人一区在线观看| 成人免费小视频| 色综合婷婷久久| 成人免费观看男女羞羞视频| 男男gaygay亚洲| 亚洲综合网站在线观看| 欧美在线视频日韩| 99国产精品国产精品毛片| 欧美电影精品一区二区| 日本中文一区二区三区| 伊人性伊人情综合网| 欧美高清激情brazzers| 99精品久久免费看蜜臀剧情介绍| 国内外成人在线| 国产一区二区美女诱惑| 久久国产婷婷国产香蕉| 亚洲成人免费视| 337p日本欧洲亚洲大胆精品| 精品日韩在线一区| 久久精品日韩一区二区三区| a亚洲天堂av| 亚洲欧美激情在线| 欧美国产一区视频在线观看| 91亚洲国产成人精品一区二区三| 国产毛片一区二区| 成人av影院在线| eeuss国产一区二区三区| 国产精品狼人久久影院观看方式| 不卡的看片网站| 99久久99精品久久久久久| 不卡在线视频中文字幕| 成人免费观看av| 成人免费视频免费观看| 99精品视频在线观看| 99精品视频在线观看| 日本高清不卡在线观看| 欧美精品日韩一本| 国产日韩影视精品| 亚洲国产精品精华液网站 | 99精品热视频| 欧美视频一二三区| 欧美精品一区二区三区高清aⅴ| 久久精品99国产精品日本| 国产一区二区影院| 91在线视频在线| 欧美日韩免费一区二区三区视频| 奇米精品一区二区三区在线观看 | 欧美国产精品劲爆| 亚洲欧美二区三区| 麻豆免费看一区二区三区| 亚洲一区二区三区中文字幕| 日精品一区二区| 欧美美女bb生活片| 国产视频不卡一区| 亚洲狼人国产精品| 免费不卡在线视频| 91成人免费在线| 久久精品亚洲精品国产欧美| 亚洲精品视频在线| 成人中文字幕在线| 欧美精品vⅰdeose4hd| 国产精品网站在线观看| 日韩电影在线一区二区三区| 国产精一区二区三区| 精品亚洲aⅴ乱码一区二区三区| 成人av在线一区二区| 日韩一区二区免费在线电影| 久久毛片高清国产| 欧美v国产在线一区二区三区| 中文一区二区完整视频在线观看| 亚洲777理论| 91国产免费看| 最新国产の精品合集bt伙计| 奇米精品一区二区三区在线观看 | 日韩黄色片在线观看| 91老司机福利 在线| 中文字幕免费不卡| 国产精品一级二级三级| 日韩精品影音先锋| 久久精品久久99精品久久| 欧美一区二区精品久久911| 亚洲图片欧美综合| 欧美色男人天堂| 午夜天堂影视香蕉久久| 欧美在线free| 亚洲午夜精品在线| 欧美日韩高清一区二区不卡| 一区二区三区高清在线| 99久久综合狠狠综合久久| 国产蜜臀97一区二区三区 | 成人免费的视频| 国产亚洲视频系列| 国产xxx精品视频大全| 粉嫩av一区二区三区| 国产视频亚洲色图| 懂色av中文一区二区三区 | 国产喂奶挤奶一区二区三区| 国产一区不卡精品| 一区二区三区视频在线看| 国产精品入口麻豆原神| 国产精品888| 波多野结衣中文一区| 日韩一区二区免费电影| 免费人成网站在线观看欧美高清| 欧美日韩一级视频| 日韩高清一区在线| 精品国产3级a| 成人久久18免费网站麻豆| 国产精品久久久久久久久免费丝袜 | 精品国产一区二区三区忘忧草| 国产一区二区在线影院| 中文字幕亚洲在| 欧美性一级生活| 精品一区二区三区免费观看| 国产午夜精品久久久久久久| 色香色香欲天天天影视综合网| 首页国产欧美久久| 久久精品在线观看| 欧美日韩视频在线第一区| 韩国成人在线视频| 亚洲综合精品久久| 久久久久久久电影| 欧美日韩在线亚洲一区蜜芽| 国产精品1区2区3区在线观看| 中文字幕在线播放不卡一区| 欧美怡红院视频| 国产精品亚洲专一区二区三区| 一级女性全黄久久生活片免费| 日韩欧美一区二区免费| heyzo一本久久综合| 久久精品国产久精国产| 亚洲精品免费在线观看| 久久综合成人精品亚洲另类欧美| 在线精品视频小说1| 成人免费高清视频| 国产麻豆精品95视频| 三级精品在线观看| 一区二区三区**美女毛片| 久久久久99精品一区| 91精品欧美一区二区三区综合在| 99v久久综合狠狠综合久久| 国产剧情一区二区| 九九久久精品视频| 天天色综合天天| 一区二区三区在线免费| 中文字幕精品一区二区精品绿巨人| 欧美一级视频精品观看| 欧美日韩精品综合在线| 91福利国产精品| 色哟哟欧美精品| 99精品视频中文字幕| www.综合网.com| 成人综合在线视频| 国产成人午夜精品5599| 国产福利91精品一区|