將圖像自動文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:將圖像自動文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了
關(guān)鍵字:文本,圖像,模型,圖片,細節(jié)
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com皮仁杰:香港科技大學(xué)博士三年級學(xué)生,師從張潼教授和周曉方教授。于 2024 年獲得蘋果獎學(xué)金。目前主要研究方向是多模態(tài)大語言模型和數(shù)據(jù)為中心的 AI。
張鑒殊:大學(xué)本科三年級學(xué)生,目前在張潼教授的指導(dǎo)下?lián)窝芯繉嵙?xí)生,主要研究方向是大語言模型,多模態(tài)大語言模型以及持續(xù)學(xué)習(xí)。當(dāng)下在尋找 2025 fall 博士入學(xué)機會。
在當(dāng)今的多模態(tài)大模型的發(fā)展中,模型的性能和訓(xùn)練數(shù)據(jù)的質(zhì)量關(guān)系十分緊密,可以說是 “數(shù)據(jù)賦予了模型的絕大多數(shù)能力”。
在這其中,圖像 – 文本數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用,在圖像理解、文本生成和圖像檢索等多個領(lǐng)域發(fā)揮著關(guān)鍵作用。
然而,現(xiàn)有的圖像描述數(shù)據(jù)集主要來源于網(wǎng)絡(luò)抓取和人工標(biāo)注,存在著質(zhì)量參差不齊、細節(jié)缺失、描述噪音多等問題。盡管人類可以
原文鏈接:將圖像自動文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺