從語言到現實：構建全面理解世界的AI新紀元

原標題：李飛飛：理解世界運作方式是AI的下一步，我們需要從大語言模型轉向大世界模型
文章來源：人工智能學家
內容字數：8545字

語言中充滿了視覺格言，比如“眼見為實”，這反映了人類對視覺的重視。歷史上，直到約5.4億年前，生物才首次具備視覺能力，三葉蟲的出現使得動物們能夠感知陽光。接下來的寒武紀大爆發時期，現代動物的祖先紛紛出現。如今，人工智能（AI）正經歷一場現代寒武紀大爆發，每周都有新的驚人工具問世。

最初，生成式AI由像ChatGPT這樣的巨大語言模型推動，但空間智能，即基于視覺的智能，或許更為根本。人類的理解和互動能力在很大程度上基于視覺。計算機視覺作為AI的一個重要子領域，致力于教會計算機具有人類相同或更好的空間智能。

過去15年，計算機視覺領域取得了迅速發展。通過卷積神經網絡和“大數據”的結合，計算機終于能夠識別物體。2007年，ImageNet項目創建了一個包含1500萬張標記圖像的數據庫，涵蓋22000個物體類別，并推動了圖像識別技術的飛速進展。

隨著技術的進步，基于變換器架構和擴散技術的新一代模型使得生成性AI工具得以實現。在視覺領域，這些系統不僅能夠識別，還能根據文本提示生成圖像和視頻。然而，目前的技術仍限于2D表現，真正的空間智能需要計算機能夠建模、推理事物和地點，并在3D空間中互動。

我們已在學術界和工業界看到一些初步跡象，表明AI正向大型世界模型轉變。最新的AI模型能夠通過文本提示控制機器人，進行實際操作，或將2D圖像轉化為可探索的3D空間。這些應用前景廣闊，包括家庭護理、外科手術輔助及教育培訓等。

人類進化數億年所取得的視覺智能，現在在計算機中僅需幾十年即可實現。未來的空間智能將成為真正以人為中心的人工智能的下一個前沿，造福人類社會。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...