視覺(jué)語(yǔ)言模型導(dǎo)論：這篇論文能成為你進(jìn)軍VLM的第一步

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：視覺(jué)語(yǔ)言模型導(dǎo)論：這篇論文能成為你進(jìn)軍VLM的第一步
關(guān)鍵字：模型,圖像,視覺(jué),文本,數(shù)據(jù)
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：Panda近些年，語(yǔ)言建模領(lǐng)域進(jìn)展非凡。Llama 或 ChatGPT 等許多大型語(yǔ)言模型（LLM）有能力解決多種不同的任務(wù)，它們也正在成為越來(lái)越常用的工具。
這些模型之前基本都局限于文本輸入，但現(xiàn)在也正在具備處理視覺(jué)輸入的能力。如果能將視覺(jué)與語(yǔ)言打通，那么勢(shì)必能造就多種多樣的應(yīng)用 —— 這實(shí)際上也正是當(dāng)前 AI 技術(shù)的關(guān)鍵方向。
即便現(xiàn)在已有不少研究將大型語(yǔ)言模型擴(kuò)展到了視覺(jué)領(lǐng)域，但視覺(jué)與語(yǔ)言之間的連接尚未被徹底打通。舉些例子，大多數(shù)模型都難以理解空間位置關(guān)系或計(jì)數(shù) —— 這還需要復(fù)雜的工程設(shè)計(jì)并依賴額外的數(shù)據(jù)標(biāo)注。許多視覺(jué)語(yǔ)言模型（VLM）依然難以理解屬性和順序。它們往往會(huì)忽略輸入 prompt 的某些部分，因此為了得到理想結(jié)果，用戶常常需要在提示工程上費(fèi)心費(fèi)力。還有些模型會(huì)產(chǎn)生幻覺(jué)，產(chǎn)出無(wú)用或不相關(guān)的內(nèi)容。因此，人們依然在大力開(kāi)發(fā)穩(wěn)定的模型。
如果你是有志這一行業(yè)的學(xué)生或愛(ài)好者或想要從其它 AI 領(lǐng)域轉(zhuǎn)戰(zhàn)此方向，那么請(qǐng)一定不要錯(cuò)過(guò)我們今天要介紹的這篇《視覺(jué)語(yǔ)言模型導(dǎo)論》。論文標(biāo)題：An Introduction to Vision-Language Mod

原文鏈接：視覺(jué)語(yǔ)言模型導(dǎo)論：這篇論文能成為你進(jìn)軍VLM的第一步