AIGC動態歡迎閱讀
原標題:通用端到端OCR模型開源,拒絕多模態大模型降維打擊
關鍵字:模型,能力,團隊,數據,階段
文章來源:量子位
內容字數:0字
內容摘要:
Vary團隊投稿 凹非寺量子位 | 公眾號 QbitAI在AI-2.0時代,OCR模型的研究難道到頭了嗎!?(OCR:一種將圖像中的文字轉換為可編輯和可搜索文本的技術)
Vary作者團隊開源了第一個邁向OCR-2.0的通用端到端模型GOT。
用實驗結果向人們證明:No~No~No~
GOT模型效果如何?話不多說,直接上效果圖:
△最常用的PDF image轉markdown能力
△雙欄文本感知能力
△自然場景以及細粒度OCR能力
△動態分辨率OCR能力
△多頁OCR能力
△更多符號的OCR能力研究團隊稱,盡管GOT模型表現不錯,但也存在一些局限,如更多的語言支持,更復雜的幾何圖,chart上的OCR性能。
他們說OCR-2.0的研究還遠的很,GOT也還有不小提升空間(該項目在數據和算力資源上都是非常受限的)。
正是因為深知GOT以及OCR-2.0的潛力,我們希望通過開源GOT吸引更多的人,放棄VQA,再次投向強感知。都說純OCR容易背鍋,但也正好說明做的不夠work,不是嗎?
GOT: Towards OCR-2.0通用OCR模型須要夠通用,體現在輸入輸出都要通用上。
GOT的通用具體
原文鏈接:通用端到端OCR模型開源,拒絕多模態大模型降維打擊
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...