AIGC動態歡迎閱讀
原標題:通用文檔理解新SOTA,多模態大模型TextMonkey來了
關鍵字:模型,圖像,文本,分辨率,相似性
文章來源:機器之心
內容字數:6946字
內容摘要:
機器之心專欄
機器之心編輯部最近,華中科技大學和金山的研究人員在多模態大模型 Monkey [1](Li et al., CVPR2024)工作的基礎上提出 TextMonkey。在多個場景文本和文檔的測試基準中,TextMonkey 處于國際領先地位,有潛力帶來辦公自動化、智慧教育、智慧金融等行業應用領域的技術變革。論文鏈接:https://arxiv.org/abs/2403.04473
代碼地址:https://github.com/Yuliang-Liu/Monkey
TextMonkey 是一個專注于文本相關任務(包括文檔問答和場景文本問答)的多模態大模型(LMM)。相比于 Monkey,TextMonkey 在多個方面進行改進:通過采用零初始化的 Shifted Window Attention,TextMonkey 實現了更高輸入分辨率下的窗口間信息交互;通過使用相似性來過濾出重要的圖像特征,TextMonkey 不僅能夠簡化輸入,還可以提高模型的性能。
此外,通過擴展多個文本相關任務并將位置信息納入回答,TextMonkey 增強了可解釋性并減少了幻覺。與此同時,Tex
原文鏈接:通用文檔理解新SOTA,多模態大模型TextMonkey來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...