<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視

        AIGC動態12個月前發布 量子位
        527 0 0

        AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視

        AIGC動態歡迎閱讀

        原標題:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視
        關鍵字:視覺,詞表,頁面,模型,團隊
        文章來源:量子位
        內容字數:0字

        內容摘要:


        Fox團隊 投稿量子位 | 公眾號 QbitAI雖然多模態大模型都能挑西瓜了,但理解復雜文檔方面還是差點意思。
        面對文字密集、多欄混排等文檔時往往力不從心,區域級別的細粒度理解,就更是無從談起了。
        最近,曠視團隊打造了一支多模態大模型的“點讀筆”——Fox,輕松實現對8頁文檔(中英混合,單欄多欄格式混合的極端場景)的交互式感知理解。
        對于信息密集的PDF文檔,Fox支持高可控性的細粒度理解,比如在用戶感興趣區域內進行文字識別、段落翻譯以及頁面內部的圖片內容描述等。
        論文中,團隊進一步突破了對于文檔的視覺感知理解的上限,高密度的信息被真正壓縮,LVLM真正地“看”懂圖,才能真正做好、做出能用的文檔多模大模型。
        正所謂“一圖勝千言”—— one image token >> one text token。
        接下來,看看Fox在實戰中表現如何?
        中英混排,單欄多欄組合都不怕對于中英混合、單欄多欄混合的8頁PDF文檔,可實現任意區域的OCR:
        下圖左側展示了8頁文檔內跨頁的VQA,右側展示了雙欄中文頁面的前景OCR。
        雙欄密集英文頁面的前景OCR:
        在頁面內圖片描述方面,Fox能給出文檔內內容


        原文鏈接:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩精品极品视频在线观看免费 | 亚洲av永久无码精品网址| 国内精品免费在线观看 | 98精品全国免费观看视频| 亚洲啪啪综合AV一区| 老司机精品免费视频| 57PAO成人国产永久免费视频 | 国产成人亚洲精品播放器下载| 天黑黑影院在线观看视频高清免费| 在线观看av永久免费| 亚洲资源最新版在线观看| 一级毛片免费播放试看60分钟| 最近免费中文字幕大全免费| 亚洲成人午夜在线| 日韩人妻无码精品久久免费一| 97亚洲熟妇自偷自拍另类图片 | 99re在线免费视频| 亚洲国产成人在线视频| 最近中文字幕免费mv视频7| 亚洲精品理论电影在线观看| 免费v片在线观看无遮挡| 亚洲国产成a人v在线| 在线免费观看视频你懂的| 黄网站在线播放视频免费观看| 亚洲一区无码精品色| 精品视频一区二区三区免费| 亚洲综合一区二区精品久久| 免费无码又爽又刺激聊天APP| 日韩精品亚洲专区在线影视| 中文字幕亚洲第一| 91嫩草免费国产永久入口| 色偷偷噜噜噜亚洲男人| 亚洲日韩一页精品发布| 国产h视频在线观看网站免费| 国产亚洲欧美日韩亚洲中文色| 亚洲综合色婷婷七月丁香| 免费观看激色视频网站bd| 特级毛片A级毛片100免费播放| 亚洲人成亚洲精品| 四虎影视在线永久免费观看| 久久国产精品一区免费下载|