AIGC動態歡迎閱讀
原標題:純文本模型訓出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
關鍵字:模型,視覺,圖像,概念,場景
文章來源:新智元
內容字數:14276字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】不用圖像,只用文本就能訓練出視覺概念表征?用寫代碼的方式讀懂畫面,形狀、物體、場景都能懂!只會「看書」的大語言模型,有現實世界的視覺感知力嗎?通過對字符串之間的關系進行建模,關于視覺世界,語言模型到底能學會什么?
最近,麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)的研究人員對語言模型的視覺能力進行了系統的評估,從簡單形狀、物體到復雜場景,要求模型不斷生成和識別出更復雜的視覺概念,并演示了如何利用純文本模型訓練出一個初步的視覺表征學習系統。論文鏈接:https://arxiv.org/abs/2401.01862
由于語言模型無法以像素的形式輸入或輸出視覺信息,所以在研究中使用代碼來渲染、表示圖像。
雖然LLM生成的圖像看起來不像自然圖像,但從生成結果,以及模型可以自我糾正來看,對字符串/文本的精確建模可以教會語言模型關于視覺世界中的諸多概念。
此外,研究人員還探索了如何利用文本模型生成的圖像來進行自監督視覺表征學習,結果也展現了其用作視覺模型訓練的潛力,可以僅使用LLM對自然圖像進行語義評估。
語言模型的視覺概念先問一個問題:對于
原文鏈接:純文本模型訓出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...