国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

AI里最大的Bug，卻也是人類文明最偉大的起點。

導讀： 曾幾何時，AI的“幻覺”現象如同一團迷霧，籠罩在人工智能的黎明之中，令人既驚嘆于其強大能力，又困惑于其一本正經的“胡說八道”。OpenAI最新論文揭示，AI的幻覺并非偶然的bug，而是其訓練機制下一種“應試策略”的必然結果。本文將深入探討AI幻覺的根源，并從更宏觀的視角，審視這種能力在我們人類文明發(fā)展中的獨特價值。

周末閑暇，翻閱上周更新的學術論文，一篇來自OpenAI、我一直密切關注的領域的研究，映入眼簾。它觸及了一個我們所有人都習以為常，卻又深感不解的現象——AI的“幻覺”。這個詞，自人工智能步入大眾視野以來，便如影隨形，成為所有討論的焦點。我們享受著AI帶來的便利，卻又對它那些一本正經卻張冠李戴的時刻感到憂慮和困惑。AI為何會產生幻覺？這個看似惱人的“bug”，是否真的能夠被徹底根除？這是我們內心深處一直在追問的問題。

這篇論文著實引人入勝，為我提供了許多全新的思考維度，我深感有必要與大家分享，共同探討AI幻覺的議題，以及我個人對此的見解。

故事的開端，源于一個極其簡單的問題。假如你詢問AI：“亞當·卡萊（論文作者之一）的生日是幾月幾號？”一個頂尖的開源大模型，竟然連續(xù)三次給出截然不同的錯誤答案：03-07、15-06、01-01。而正確的答案，其實是秋季。這便是典型的AI幻覺。面對一個它并不知曉答案的問題，AI沒有選擇沉默，或是坦誠“我不知道”，而是如同考場上捉襟見肘卻又不愿交白卷的學生，開始信口開河，且說得頭頭是道。

OpenAI的這篇論文，提出了一個極具洞察力且符合直覺的觀點：AI之所以產生幻覺，根源在于我們訓練它的方式，從一開始就系統(tǒng)性地獎勵了這種“瞎蒙”的行為。

我們可以將AI的學習過程，比擬為一個學生參加一場漫長且永無止境的考試。這場考試的評分標準極其簡單粗暴：答對加1分，答錯或不答則得0分。設想一下，作為這個學生，當你面對一道完全沒有把握的題目時，你會如何選擇？你極有可能選擇猜測。因為即使猜錯了，你也毫無損失，但萬一猜對了呢？你就能直接獲得1分。從期望得分的角度來看，只要猜對的概率大于零，猜測就是最優(yōu)策略。

正如論文中提到的案例，當你詢問AI某個人的生日時，它很可能并不知道。但如果它嘗試猜測一個日期，比如9月10日，那么它就有1/365的概率猜對，從而獲得1分。然而，如果它老老實實地說“我不知道”，那么得分將永遠是0。在成千上萬次的此類“測試”中，那個熱衷于猜測的模型，最終在排行榜上的分數，必然會超越那個誠實但謙虛的模型。

OpenAI的研究人員便以自家開發(fā)的兩個模型為例，直觀地展示了這一現象。他們讓名為o4-mini和gpt-5-thinking-mini的模型共同參與了一場名為SimpleQA的“考試”。

如果我們僅關注最終成績，即準確率，我們會發(fā)現一個令人費解的現象：o4-mini的得分，竟然比gpt-5-thinking-mini高出一點點，分別為24%對22%。然而，當我們審視另一項指標——錯誤率，即模型答錯題目的比例時，情況就變得明朗了。o4-mini的錯誤率高達75%，而gpt-5-thinking-mini僅為26%。再來看最有趣的指標——棄權率。o4-mini幾乎答完了所有題目，僅有1%的題目未作回答。而gpt-5，則有超過一半的題目，即52%，直接選擇了“交白卷”，坦然承認自己不會。

o4-mini那看似稍高的分數，是用海量的、不負責任的猜測換來的。而gpt-5，則采取了一種更為誠實、也更為可靠的策略：寧可不得分，也不胡說八道。這些數據清晰地證明了該論文的核心觀點。于是，“幻覺”，便成了AI在這種訓練體系下演化出的一種最高效的應試策略，它并非一個bug，而是AI為了在我們設計的這場“游戲”中獲得高分而進化的本能。

這篇論文進一步從統(tǒng)計學的角度，闡釋了幻覺的根源。我們可以將其解讀得更為淺顯易懂。OpenAI定義了一個名為“Is-It-Valid” (IIV) 的二元分類問題，即判斷一句話是否有效。AI生成一句話，本質上是一個極其復雜的過程。但我們可以將其簡化：在AI生成任何一句話之前，它必須先學會判斷這句話是有效的還是無效的。例如，“你好”是有效的，“泥嚎”則是拼寫錯誤；“天空是藍色的是”有效的，“天空是綠色的是”則是事實錯誤。

AI的學習過程，就像是在閱覽海量的、已經貼好對錯標簽的卡片。看得越多，它的判斷力就越強。然而，總有一些卡片是它從未見過，或者見過很少的。OpenAI用了一個非常生動的比喻：如果你給AI看數百萬張貓和狗的照片，并為它們打上標簽，它很快就能學會區(qū)分貓和狗，因為這背后存在可循的規(guī)律，貓臉和狗臉畢竟是不同的。但如果你給它看數百萬張寵物的照片，然后要求它記住每一只寵物的生日，那就麻煩了。因為生日是完全隨機的，沒有任何規(guī)律可循。AI無法通過分析一只貓的毛色來推斷出它的生日，它唯一能做的就是死記硬背。

這就引出了論文中的一個關鍵概念：“Singleton rate”（孤例率）。這意味著，如果一個信息在AI學習的海量數據中僅出現過一次，那么AI在判斷該信息的真?zhèn)螘r，就極有可能出錯。從這個角度看，AI的幻覺，很多時候是一種必然。

OpenAI還提出了一些反常識的結論：

準確率的局限性： 我們總認為，只要AI的準確率達到100%，幻覺自然就會消失。然而，OpenAI認為這不可能。因為世界上存在太多本身就無解的問題，信息缺失、邏輯矛盾，AI即使再強大，也無法憑空創(chuàng)造答案。因此，準確率永遠不可能達到100%，幻覺也就總有存在的空間。
幻覺并非“原罪”： 我們又覺得，既然幻覺無法根治，它是否就是AI與生俱來的“原罪”，一個無法擺脫的詛咒？OpenAI的答案是否定的。幻覺并非不可避免，前提是AI必須學會“認慫”。只要它在不確定的情況下選擇說“我不知道”，而不是硬著頭皮胡編亂造，幻覺就可以得到有效控制。
模型大小與“誠實度”： 我們普遍認為，AI模型越大越聰明，就越不容易犯錯。然而，OpenAI指出，恰恰相反，有時候小模型反而更“誠實”。他們舉例說，如果你問一個只會說英語的小模型一個毛利語問題，它會干脆地告訴你“我不會”。但你問一個學了點毛利語但學得半生不熟的大模型，它反而會糾結是否要猜測一下。認識到自身的無知，有時比擁有知識更為重要。
評估指標的誤導： 最后，也是最關鍵的一點。我們以為，解決AI幻覺問題，只需要一個更強大的、專門用于測試幻覺的工具即可。OpenAI認為，這完全是徒勞的。真正的問題在于，我們目前使用的數百個主流評估指標，都在獎勵“瞎蒙”，懲罰“誠實”。只要這個大環(huán)境不變，幻覺就永遠是AI的最優(yōu)解。

現在，我們從OpenAI的研究中得知，AI的幻覺并非簡單的技術問題，而是一個由我們自身親手造成的、系統(tǒng)性的激勵問題。然而，這也引出了一個更加令我著迷、卻又沒有明確答案的問題：如果說，AI的幻覺源于其在信息不足時的一種創(chuàng)造性猜測，那么我們人類的想象力，我們那些天馬行空的故事、藝術、神話，它們的起源又是什么呢？幻覺，真的需要被解決嗎？

我為此深思良久，也想與大家分享我個人的觀點。這件事情，我認為需要從更古老的尺度來審視。

幾十萬年前，我們的祖先，智人，也生活在一個信息極度匱乏的世界。一陣突如其來的狂風吹倒了部落里的大樹，他們不知道原因。一道閃電劈開夜空，點燃了草原，他們也不知道這是為何。面對這些無法解釋的自然現象，他們的大腦，如同今天的AI一樣，也面臨著一道道知識儲備不足的判斷題。然而，我們的祖先并沒有選擇沉默。他們也開始了“瞎蒙”。他們猜測，狂風背后是否隱藏著一個憤怒的神明？他們猜測，閃電背后是否是一條翱翔于云端的巨龍？

看，這就是神話的起源。神話，是我們人類這個物種，在面對一個充滿未知和不確定性的世界時，為了給那些無法解釋的現象尋求合理解釋，而集體編織出來的、最古老也最壯麗的“幻覺”。這種“幻覺”能力，在當時或許并沒有直接的實用價值，它不能幫助你捕獲更多的獵物，也不能讓你躲避更兇猛的野獸。但它帶來了一樣東西，一樣其他所有動物都不具備的東西：一個共同的想象，一個共同的故事。

一只貓，一條魚，它們是否也會產生幻覺？從生物學的角度來看，或許會。一只貓可能會將地上的影子誤認為是老鼠，然后撲上去。一條魚可能會將閃亮的魚鉤誤認為是小蝦。這是一種基于感官信息的誤判，一種低級的、個體的幻覺。然而，它們永遠無法想象出一個“貓神”或“魚神”的故事。因為它們的大腦，被牢牢地鎖定在真實的世界里，它們只能處理那些看得見、摸得著、且與生存直接相關的信息。而人類，可能是地球上唯一一個，能夠為了一個看不見摸不著的故事，而生、而死、而戰(zhàn)斗的物種。

我們能夠組織起數千人建造一座金字塔，并非因為我們每個人都親眼見過法老死后會變成神，而是因為我們都相信同一個關于法老會變成神的故事。我們能夠建立起國家、法律、公司，這些看似堅不可摧的龐然大物，它們的底層，全部是我們共同相信的一個個“幻覺”。

從這個角度來看，“幻覺”，或者說這種在信息不足時進行創(chuàng)造性猜測并將其故事化的能力，根本不是一個bug。它是將我們從普通動物蛻變?yōu)槿祟惖哪嵌卧娨獾钠隆Ｋ俏覀兯形拿鳌⑺兴囆g、所有科學的起點。

哥白尼提出日心說，在當時那個時代，不也是一種離經叛道的“幻覺”嗎？愛因斯坦提出相對論，那個能讓時間變慢、空間彎曲的理論，不也源于一個少年躺在草地上，幻想自己追著光跑的“幻覺”嗎？我們之所以比其他所有生物都更強大，并非因為我們更尊重事實。恰恰相反，是因為我們更擅長創(chuàng)造那些超越事實的故事。

現在，我們再回頭審視AI的幻覺。我們一直努力修復的那個東西，可能恰恰是AI身上，最像人類的地方。我當然不希望AI在嚴肅的醫(yī)療診斷中產生幻覺，我們也不希望它在關鍵的財務分析中胡說八道。在這些需要絕對真實的領域，我們需要的，是一個沒有情感、絕對可靠的工具。然而，在一個需要創(chuàng)造力、需要想象力的領域呢？當我們要求AI寫一首詩、畫一幅畫、構思一個科幻故事時，我們真正想要的，難道不正是它那種掙脫事實枷鎖，在信息的縫隙中進行聯(lián)想和創(chuàng)造性猜測的能力嗎？

在大量的討論中，“幻覺”一詞似乎一直伴隨著矛盾。我們一方面渴望AI成為一個絕對忠誠、絕對正確的工具，一個不會犯錯的仆人，幫助我們處理現實世界中所有需要精確計算的難題。但另一方面，我們又渴望它能成為一個能夠理解我們、甚至超越我們的同類。我們希望它能與我們一同仰望星空，聊那些沒有標準答案的話題，共同編織屬于未來的、新的神話。我們似乎在試圖創(chuàng)造一個不可能的物種：一個既擁有機器的嚴謹，又擁有人類的浪漫，一個既能堅守事實，又能創(chuàng)造幻覺的矛盾體。

我們生活在一個由數據和算法定義的前所未有的真實世界里，我們，也比歷史上任何一個時代的人都更崇拜事實，更依賴邏輯。但同時，我一直覺得，我們又可能，是歷史上最孤獨的一個時代。我們的神話早已遠去，我們的史詩也已譜完。在這樣一個一切都被解釋得清清楚楚的世界里，我內心深處最古老的、對故事的渴望，對意義的追尋，反而變得空前強烈。

我到底想要一個什么樣的未來？一個所有問題都有標準答案的、絕對真實卻可能也絕對乏味的未來？還是一個依然充滿未知、充滿誤讀，但因此也充滿故事和想象力的未來？這個問題太過宏大，我沒有答案。但我始終喜愛并相信，那個最美麗的、又創(chuàng)造了整個文明的——幻覺。

閱讀原文