OCR小模型仍有機會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
AIGC動態(tài)歡迎閱讀
原標題:OCR小模型仍有機會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
關鍵字:文本,任務,視頻,模型,方法
文章來源:新智元
內(nèi)容字數(shù):19412字
內(nèi)容摘要:
新智元報道編輯:LRT
【新智元導讀】通過提示查詢生成模塊和任務感知適配器,大一統(tǒng)框架VimTS在不同任務間實現(xiàn)更好的協(xié)同作用,顯著提升了模型的泛化能力。該方法在多個跨域基準測試中表現(xiàn)優(yōu)異,尤其在視頻級跨域自適應方面,僅使用圖像數(shù)據(jù)就實現(xiàn)了比現(xiàn)有端到端視頻識別方法更高的性能。文本端到端識別是一項從圖像或視頻序列中提取文本信息的任務,雖然取得了一些進展,但跨領域文本端到端識別仍然是一個難題,面臨著圖像到圖像和圖像到視頻泛化等跨域自適應的挑戰(zhàn)。圖1 圖(a)和圖(b)是兩種跨域文本端到端識別,包括圖像到圖像和圖像到視頻。TT表示TotalText,IC15代表ICDAR2015,IC13代表視頻ICDAR2013。
圖像級跨域文本端到端識別面臨樣式、字體、背景等差異挑戰(zhàn),模型需要具備極強的泛化能力。
不同數(shù)據(jù)集間的格式差異也是跨域文本端到端識別重要的問題,如Total-Text和ICDAR2015使用詞級注釋,CTW1500使用行級注釋。視頻級跨域文本端到端識別中,由于視頻文本中存在著如遮擋、場景變化和文本快速等因素,現(xiàn)有靜態(tài)圖像的方法在視頻環(huán)境通常表現(xiàn)不佳,如圖2所示。圖2 將靜態(tài)
原文鏈接:OCR小模型仍有機會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。