OCR小模型仍有機(jī)會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OCR小模型仍有機(jī)會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
關(guān)鍵字:文本,任務(wù),視頻,模型,方法
文章來源:新智元
內(nèi)容字?jǐn)?shù):19412字
內(nèi)容摘要:
新智元報道編輯:LRT
【新智元導(dǎo)讀】通過提示查詢生成模塊和任務(wù)感知適配器,大一統(tǒng)框架VimTS在不同任務(wù)間實現(xiàn)更好的協(xié)同作用,顯著提升了模型的泛化能力。該方法在多個跨域基準(zhǔn)測試中表現(xiàn)優(yōu)異,尤其在視頻級跨域自適應(yīng)方面,僅使用圖像數(shù)據(jù)就實現(xiàn)了比現(xiàn)有端到端視頻識別方法更高的性能。文本端到端識別是一項從圖像或視頻序列中提取文本信息的任務(wù),雖然取得了一些進(jìn)展,但跨領(lǐng)域文本端到端識別仍然是一個難題,面臨著圖像到圖像和圖像到視頻泛化等跨域自適應(yīng)的挑戰(zhàn)。圖1 圖(a)和圖(b)是兩種跨域文本端到端識別,包括圖像到圖像和圖像到視頻。TT表示TotalText,IC15代表ICDAR2015,IC13代表視頻ICDAR2013。
圖像級跨域文本端到端識別面臨樣式、字體、背景等差異挑戰(zhàn),模型需要具備極強(qiáng)的泛化能力。
不同數(shù)據(jù)集間的格式差異也是跨域文本端到端識別重要的問題,如Total-Text和ICDAR2015使用詞級注釋,CTW1500使用行級注釋。視頻級跨域文本端到端識別中,由于視頻文本中存在著如遮擋、場景變化和文本快速等因素,現(xiàn)有靜態(tài)圖像的方法在視頻環(huán)境通常表現(xiàn)不佳,如圖2所示。圖2 將靜態(tài)
原文鏈接:OCR小模型仍有機(jī)會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。