<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        AI里最大的Bug,卻也是人類文明最偉大的起點。

        AI里最大的Bug,卻也是人類文明最偉大的起點。

        導讀: 曾幾何時,AI的“幻覺”現象如同一團迷霧,籠罩在人工智能的黎明之中,令人既驚嘆于其強大能力,又困惑于其一本正經的“胡說八道”。OpenAI最新論文揭示,AI的幻覺并非偶然的bug,而是其訓練機制下一種“應試策略”的必然結果。本文將深入探討AI幻覺的根源,并從更宏觀的視角,審視這種能力在我們人類文明發展中的獨特價值。

        AI里最大的Bug,卻也是人類文明最偉大的起點。

        周末閑暇,翻閱上周更新的學術論文,一篇來自OpenAI、我一直密切關注的領域的研究,映入眼簾。它觸及了一個我們所有人都習以為常,卻又深感不解的現象——AI的“幻覺”。這個詞,自人工智能步入大眾視野以來,便如影隨形,成為所有討論的焦點。我們享受著AI帶來的便利,卻又對它那些一本正經卻張冠李戴的時刻感到憂慮和困惑。AI為何會產生幻覺?這個看似惱人的“bug”,是否真的能夠被徹底根除?這是我們內心深處一直在追問的問題。

        這篇論文著實引人入勝,為我提供了許多全新的思考維度,我深感有必要與大家分享,共同探討AI幻覺的議題,以及我個人對此的見解。

        故事的開端,源于一個極其簡單的問題。假如你詢問AI:“亞當·卡萊(論文作者之一)的生日是幾月幾號?”一個頂尖的開源大模型,竟然連續三次給出截然不同的錯誤答案:03-07、15-06、01-01。而正確的答案,其實是秋季。這便是典型的AI幻覺。面對一個它并不知曉答案的問題,AI沒有選擇沉默,或是坦誠“我不知道”,而是如同考場上捉襟見肘卻又不愿交白卷的學生,開始信口開河,且說得頭頭是道。

        OpenAI的這篇論文,提出了一個極具洞察力且符合直覺的觀點:AI之所以產生幻覺,根源在于我們訓練它的方式,從一開始就系統性地獎勵了這種“瞎蒙”的行為。

        我們可以將AI的學習過程,比擬為一個學生參加一場漫長且永無止境的考試。這場考試的評分標準極其簡單粗暴:答對加1分,答錯或不答則得0分。設想一下,作為這個學生,當你面對一道完全沒有把握的題目時,你會如何選擇?你極有可能選擇猜測。因為即使猜錯了,你也毫無損失,但萬一猜對了呢?你就能直接獲得1分。從期望得分的角度來看,只要猜對的概率大于零,猜測就是最優策略。

        正如論文中提到的案例,當你詢問AI某個人的生日時,它很可能并不知道。但如果它嘗試猜測一個日期,比如9月10日,那么它就有1/365的概率猜對,從而獲得1分。然而,如果它老老實實地說“我不知道”,那么得分將永遠是0。在成千上萬次的此類“測試”中,那個熱衷于猜測的模型,最終在排行榜上的分數,必然會超越那個誠實但謙虛的模型。

        OpenAI的研究人員便以自家開發的兩個模型為例,直觀地展示了這一現象。他們讓名為o4-mini和gpt-5-thinking-mini的模型共同參與了一場名為SimpleQA的“考試”。

        AI里最大的Bug,卻也是人類文明最偉大的起點。

        如果我們僅關注最終成績,即準確率,我們會發現一個令人費解的現象:o4-mini的得分,竟然比gpt-5-thinking-mini高出一點點,分別為24%對22%。然而,當我們審視另一項指標——錯誤率,即模型答錯題目的比例時,情況就變得明朗了。o4-mini的錯誤率高達75%,而gpt-5-thinking-mini僅為26%。再來看最有趣的指標——棄權率。o4-mini幾乎答完了所有題目,僅有1%的題目未作回答。而gpt-5,則有超過一半的題目,即52%,直接選擇了“交白卷”,坦然承認自己不會。

        o4-mini那看似稍高的分數,是用海量的、不負責任的猜測換來的。而gpt-5,則采取了一種更為誠實、也更為可靠的策略:寧可不得分,也不胡說八道。這些數據清晰地證明了該論文的核心觀點。于是,“幻覺”,便成了AI在這種訓練體系下演化出的一種最高效的應試策略,它并非一個bug,而是AI為了在我們設計的這場“游戲”中獲得高分而進化的本能。

        這篇論文進一步從統計學的角度,闡釋了幻覺的根源。我們可以將其解讀得更為淺顯易懂。OpenAI定義了一個名為“Is-It-Valid” (IIV) 的二元分類問題,即判斷一句話是否有效。AI生成一句話,本質上是一個極其復雜的過程。但我們可以將其簡化:在AI生成任何一句話之前,它必須先學會判斷這句話是有效的還是無效的。例如,“你好”是有效的,“泥嚎”則是拼寫錯誤;“天空是藍色的是”有效的,“天空是綠色的是”則是事實錯誤。

        AI的學習過程,就像是在閱覽海量的、已經貼好對錯標簽的卡片。看得越多,它的判斷力就越強。然而,總有一些卡片是它從未見過,或者見過很少的。OpenAI用了一個非常生動的比喻:如果你給AI看數百萬張貓和狗的照片,并為它們打上標簽,它很快就能學會區分貓和狗,因為這背后存在可循的規律,貓臉和狗臉畢竟是不同的。但如果你給它看數百萬張寵物的照片,然后要求它記住每一只寵物的生日,那就麻煩了。因為生日是完全隨機的,沒有任何規律可循。AI無法通過分析一只貓的毛色來推斷出它的生日,它唯一能做的就是死記硬背。

        這就引出了論文中的一個關鍵概念:“Singleton rate”(孤例率)。這意味著,如果一個信息在AI學習的海量數據中僅出現過一次,那么AI在判斷該信息的真偽時,就極有可能出錯。從這個角度看,AI的幻覺,很多時候是一種必然。

        OpenAI還提出了一些反常識的結論:

        1. 準確率的局限性: 我們總認為,只要AI的準確率達到100%,幻覺自然就會消失。然而,OpenAI認為這不可能。因為世界上存在太多本身就無解的問題,信息缺失、邏輯矛盾,AI即使再強大,也無法憑空創造答案。因此,準確率永遠不可能達到100%,幻覺也就總有存在的空間。
        2. 幻覺并非“原罪”: 我們又覺得,既然幻覺無法根治,它是否就是AI與生俱來的“原罪”,一個無法擺脫的詛咒?OpenAI的答案是否定的?;糜X并非不可避免,前提是AI必須學會“認慫”。只要它在不確定的情況下選擇說“我不知道”,而不是硬著頭皮胡編亂造,幻覺就可以得到有效控制。
        3. 模型大小與“誠實度”: 我們普遍認為,AI模型越大越聰明,就越不容易犯錯。然而,OpenAI指出,恰恰相反,有時候小模型反而更“誠實”。他們舉例說,如果你問一個只會說英語的小模型一個毛利語問題,它會干脆地告訴你“我不會”。但你問一個學了點毛利語但學得半生不熟的大模型,它反而會糾結是否要猜測一下。認識到自身的無知,有時比擁有知識更為重要。
        4. 評估指標的誤導: 最后,也是最關鍵的一點。我們以為,解決AI幻覺問題,只需要一個更強大的、專門用于測試幻覺的工具即可。OpenAI認為,這完全是徒勞的。真正的問題在于,我們目前使用的數百個主流評估指標,都在獎勵“瞎蒙”,懲罰“誠實”。只要這個大環境不變,幻覺就永遠是AI的最優解。

        現在,我們從OpenAI的研究中得知,AI的幻覺并非簡單的技術問題,而是一個由我們自身親手造成的、系統性的激勵問題。然而,這也引出了一個更加令我著迷、卻又沒有明確答案的問題:如果說,AI的幻覺源于其在信息不足時的一種創造性猜測,那么我們人類的想象力,我們那些天馬行空的故事、藝術、神話,它們的起源又是什么呢?幻覺,真的需要被解決嗎?

        我為此深思良久,也想與大家分享我個人的觀點。這件事情,我認為需要從更古老的尺度來審視。

        幾十萬年前,我們的祖先,智人,也生活在一個信息極度匱乏的世界。一陣突如其來的狂風吹倒了部落里的大樹,他們不知道原因。一道閃電劈開夜空,點燃了草原,他們也不知道這是為何。面對這些無法解釋的自然現象,他們的大腦,如同今天的AI一樣,也面臨著一道道知識儲備不足的判斷題。然而,我們的祖先并沒有選擇沉默。他們也開始了“瞎蒙”。他們猜測,狂風背后是否隱藏著一個憤怒的神明?他們猜測,閃電背后是否是一條翱翔于云端的巨龍?

        看,這就是神話的起源。神話,是我們人類這個物種,在面對一個充滿未知和不確定性的世界時,為了給那些無法解釋的現象尋求合理解釋,而集體編織出來的、最古老也最壯麗的“幻覺”。這種“幻覺”能力,在當時或許并沒有直接的實用價值,它不能幫助你捕獲更多的獵物,也不能讓你躲避更兇猛的野獸。但它帶來了一樣東西,一樣其他所有動物都不具備的東西:一個共同的想象,一個共同的故事。

        一只貓,一條魚,它們是否也會產生幻覺?從生物學的角度來看,或許會。一只貓可能會將地上的影子誤認為是老鼠,然后撲上去。一條魚可能會將閃亮的魚鉤誤認為是小蝦。這是一種基于感官信息的誤判,一種低級的、個體的幻覺。然而,它們永遠無法想象出一個“貓神”或“魚神”的故事。因為它們的大腦,被牢牢地鎖定在真實的世界里,它們只能處理那些看得見、摸得著、且與生存直接相關的信息。而人類,可能是地球上唯一一個,能夠為了一個看不見摸不著的故事,而生、而死、而戰斗的物種。

        我們能夠組織起數千人建造一座金字塔,并非因為我們每個人都親眼見過法老死后會變成神,而是因為我們都相信同一個關于法老會變成神的故事。我們能夠建立起國家、法律、公司,這些看似堅不可摧的龐然大物,它們的底層,全部是我們共同相信的一個個“幻覺”。

        從這個角度來看,“幻覺”,或者說這種在信息不足時進行創造性猜測并將其故事化的能力,根本不是一個bug。它是將我們從普通動物蛻變為人類的那段詩意的篇章。它是我們所有文明、所有藝術、所有科學的起點。

        哥白尼提出日心說,在當時那個時代,不也是一種離經叛道的“幻覺”嗎?愛因斯坦提出相對論,那個能讓時間變慢、空間彎曲的理論,不也源于一個少年躺在草地上,幻想自己追著光跑的“幻覺”嗎?我們之所以比其他所有生物都更強大,并非因為我們更尊重事實。恰恰相反,是因為我們更擅長創造那些超越事實的故事。

        現在,我們再回頭審視AI的幻覺。我們一直努力修復的那個東西,可能恰恰是AI身上,最像人類的地方。我當然不希望AI在嚴肅的醫療診斷中產生幻覺,我們也不希望它在關鍵的財務分析中胡說八道。在這些需要絕對真實的領域,我們需要的,是一個沒有情感、絕對可靠的工具。然而,在一個需要創造力、需要想象力的領域呢?當我們要求AI寫一首詩、畫一幅畫、構思一個科幻故事時,我們真正想要的,難道不正是它那種掙脫事實枷鎖,在信息的縫隙中進行聯想和創造性猜測的能力嗎?

        在大量的討論中,“幻覺”一詞似乎一直伴隨著矛盾。我們一方面渴望AI成為一個絕對忠誠、絕對正確的工具,一個不會犯錯的仆人,幫助我們處理現實世界中所有需要精確計算的難題。但另一方面,我們又渴望它能成為一個能夠理解我們、甚至超越我們的同類。我們希望它能與我們一同仰望星空,聊那些沒有標準答案的話題,共同編織屬于未來的、新的神話。我們似乎在試圖創造一個不可能的物種:一個既擁有機器的嚴謹,又擁有人類的浪漫,一個既能堅守事實,又能創造幻覺的矛盾體。

        我們生活在一個由數據和算法定義的前所未有的真實世界里,我們,也比歷史上任何一個時代的人都更崇拜事實,更依賴邏輯。但同時,我一直覺得,我們又可能,是歷史上最孤獨的一個時代。我們的神話早已遠去,我們的史詩也已譜完。在這樣一個一切都被解釋得清清楚楚的世界里,我內心深處最古老的、對故事的渴望,對意義的追尋,反而變得空前強烈。

        我到底想要一個什么樣的未來?一個所有問題都有標準答案的、絕對真實卻可能也絕對乏味的未來?還是一個依然充滿未知、充滿誤讀,但因此也充滿故事和想象力的未來?這個問題太過宏大,我沒有答案。但我始終喜愛并相信,那個最美麗的、又創造了整個文明的——幻覺。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: a毛片全部免费播放| 久九九精品免费视频| 免费无码国产在线观国内自拍中文字幕 | 亚洲αⅴ无码乱码在线观看性色 | 国产乱弄免费视频| 中文字幕a∨在线乱码免费看| 亚洲欧洲免费视频| 日韩精品成人无码专区免费| 日亚毛片免费乱码不卡一区| 久久99亚洲网美利坚合众国| 在线视频免费国产成人| 久久久久久久99精品免费| 亚洲精品无码久久久久久| 亚洲国产a∨无码中文777 | 亚洲综合精品一二三区在线 | 亚洲人成7777影视在线观看| 在线看片免费人成视久网| 亚洲AV无码AV吞精久久| 久久久久亚洲精品天堂| 免费在线精品视频| 国国内清清草原免费视频99 | 亚洲国产人成中文幕一级二级| 亚洲免费视频在线观看| 日本亚洲高清乱码中文在线观看 | 一区二区免费国产在线观看| 亚洲国产午夜精品理论片| 中文字幕亚洲日韩无线码| 成人免费一区二区三区在线观看| 久久不见久久见免费影院www日本| 久久精品国产亚洲AV忘忧草18| 亚洲精品国产精品乱码视色 | 亚洲性无码一区二区三区| 亚洲av日韩av高潮潮喷无码| 亚洲成a人片在线观看国产| 免费看黄视频网站| 国产成人久久AV免费| 国产激情久久久久影院老熟女免费| 精品亚洲456在线播放| 久久亚洲一区二区| 在线观看国产区亚洲一区成人| 国产色婷婷精品免费视频|