原標題:李飛飛:理解世界運作方式是AI的下一步,我們需要從大語言模型轉向大世界模型
文章來源:人工智能學家
內容字數:8545字
人工智能的視覺智能
語言中充滿了視覺格言,比如“眼見為實”,這反映了人類對視覺的重視。歷史上,直到約5.4億年前,生物才首次具備視覺能力,三葉蟲的出現使得動物們能夠感知陽光。接下來的寒武紀大爆發時期,現代動物的祖先紛紛出現。如今,人工智能(AI)正經歷一場現代寒武紀大爆發,每周都有新的驚人工具問世。
從語言智能到空間智能
最初,生成式AI由像ChatGPT這樣的巨大語言模型推動,但空間智能,即基于視覺的智能,或許更為根本。人類的理解和互動能力在很大程度上基于視覺。計算機視覺作為AI的一個重要子領域,致力于教會計算機具有人類相同或更好的空間智能。
視覺理解的進展
過去15年,計算機視覺領域取得了迅速發展。通過卷積神經網絡和“大數據”的結合,計算機終于能夠識別物體。2007年,ImageNet項目創建了一個包含1500萬張標記圖像的數據庫,涵蓋22000個物體類別,并推動了圖像識別技術的飛速進展。
生成性AI的崛起
隨著技術的進步,基于變換器架構和擴散技術的新一代模型使得生成性AI工具得以實現。在視覺領域,這些系統不僅能夠識別,還能根據文本提示生成圖像和視頻。然而,目前的技術仍限于2D表現,真正的空間智能需要計算機能夠建模、推理事物和地點,并在3D空間中互動。
未來的展望
我們已在學術界和工業界看到一些初步跡象,表明AI正向大型世界模型轉變。最新的AI模型能夠通過文本提示控制機器人,進行實際操作,或將2D圖像轉化為可探索的3D空間。這些應用前景廣闊,包括家庭護理、外科手術輔助及教育培訓等。
結論
人類進化數億年所取得的視覺智能,現在在計算機中僅需幾十年即可實現。未來的空間智能將成為真正以人為中心的人工智能的下一個前沿,造福人類社會。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構