
AIGC動態歡迎閱讀
原標題:OCR-Omni來了,字節&華師統一多模態文字理解與生成 | NeurIPS2024
關鍵字:模型,視覺,字節跳動,文本,圖像
文章來源:量子位
內容字數:0字
內容摘要:
TextHarmony團隊 投稿量子位 | 公眾號 QbitAI多模態生成新突破,字節&華師團隊打造TextHarmony,在單一模型架構中實現模態生成的統一,并入選NeurIPS 2024。
過去,視覺文字領域的大模型研究聚焦于單模態生成,雖然在個別任務上實現了模型的統一,但很難在OCR領域的多數任務上做到全面整合。
例如,Monkey等視覺語言模型(VLM)擅長文字檢測、識別和視覺問答(VQA)等文本模態生成任務,卻無法勝任文字圖像的生成、抹除和編輯等圖像模態生成任務。反之,以 AnyText 為代表的基于擴散模型的圖像生成模型則專注于圖像創建。因此,OCR領域亟需一個能夠統一多模態生成的大模型。
為解決這一難題,字節跳動與華東師范大學的聯合研究團隊提出了創新性的多模態生成模型TextHarmony,不僅精通視覺文本的感知、理解和生成,還在單一模型架構中實現了視覺與語言模態生成的和諧統一。
目前論文已經上傳arXiv,代碼也即將開源,鏈接可在文末領取。
TextHarmony: 核心貢獻TextHarmony的核心優勢在于其成功整合了視覺文本的理解和生成能力。傳統研究中,這兩類任務
原文鏈接:OCR-Omni來了,字節&華師統一多模態文字理解與生成 | NeurIPS2024
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號