將圖像自動文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了

AIGC動態(tài)歡迎閱讀

原標(biāo)題：將圖像自動文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了
關(guān)鍵字：文本,圖像,模型,圖片,細節(jié)
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com皮仁杰：香港科技大學(xué)博士三年級學(xué)生，師從張潼教授和周曉方教授。于 2024 年獲得蘋果獎學(xué)金。目前主要研究方向是多模態(tài)大語言模型和數(shù)據(jù)為中心的 AI。
張鑒殊：大學(xué)本科三年級學(xué)生，目前在張潼教授的指導(dǎo)下?lián)窝芯繉嵙?xí)生，主要研究方向是大語言模型，多模態(tài)大語言模型以及持續(xù)學(xué)習(xí)。當(dāng)下在尋找 2025 fall 博士入學(xué)機會。
在當(dāng)今的多模態(tài)大模型的發(fā)展中，模型的性能和訓(xùn)練數(shù)據(jù)的質(zhì)量關(guān)系十分緊密，可以說是 “數(shù)據(jù)賦予了模型的絕大多數(shù)能力”。
在這其中，圖像 – 文本數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用，在圖像理解、文本生成和圖像檢索等多個領(lǐng)域發(fā)揮著關(guān)鍵作用。
然而，現(xiàn)有的圖像描述數(shù)據(jù)集主要來源于網(wǎng)絡(luò)抓取和人工標(biāo)注，存在著質(zhì)量參差不齊、細節(jié)缺失、描述噪音多等問題。盡管人類可以

原文鏈接：將圖像自動文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了