AIGC動態歡迎閱讀
原標題:OCR小模型仍有機會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
關鍵字:文本,任務,視頻,模型,方法
文章來源:新智元
內容字數:19412字
內容摘要:
新智元報道編輯:LRT
【新智元導讀】通過提示查詢生成模塊和任務感知適配器,大一統框架VimTS在不同任務間實現更好的協同作用,顯著提升了模型的泛化能力。該方法在多個跨域基準測試中表現優異,尤其在視頻級跨域自適應方面,僅使用圖像數據就實現了比現有端到端視頻識別方法更高的性能。文本端到端識別是一項從圖像或視頻序列中提取文本信息的任務,雖然取得了一些進展,但跨領域文本端到端識別仍然是一個難題,面臨著圖像到圖像和圖像到視頻泛化等跨域自適應的挑戰。圖1 圖(a)和圖(b)是兩種跨域文本端到端識別,包括圖像到圖像和圖像到視頻。TT表示TotalText,IC15代表ICDAR2015,IC13代表視頻ICDAR2013。
圖像級跨域文本端到端識別面臨樣式、字體、背景等差異挑戰,模型需要具備極強的泛化能力。
不同數據集間的格式差異也是跨域文本端到端識別重要的問題,如Total-Text和ICDAR2015使用詞級注釋,CTW1500使用行級注釋。視頻級跨域文本端到端識別中,由于視頻文本中存在著如遮擋、場景變化和文本快速等因素,現有靜態圖像的方法在視頻環境通常表現不佳,如圖2所示。圖2 將靜態
原文鏈接:OCR小模型仍有機會!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...