<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體

        AIGC動態1年前 (2024)發布 量子位
        474 0 0

        港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體

        AIGC動態歡迎閱讀

        原標題:港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體
        關鍵字:字節跳動,模型,能力,物體,語言
        文章來源:量子位
        內容字數:3751字

        內容摘要:


        允中 發自 凹非寺量子位 | 公眾號 QbitAI當前,多模態大模型(MLLM)在多項視覺任務上展現出了強大的認知理解能力。
        然而大部分多模態大模型局限于單向的圖像理解,難以將理解的內容映射回圖像上。
        比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準確標識出來。
        定位能力的缺失直接限制了多模態大模型在圖像編輯,自動駕駛,機器人控制等下游領域的應用。
        針對這一問題,港大和字節跳動商業化團隊的研究人員提出了一種新范式Groma——
        通過區域性圖像編碼來提升多模態大模型的感知定位能力。
        在融入定位后,Groma可以將文本內容和圖像區域直接關聯起來,從而顯著提升對話的交互性和指向性。
        核心思路如何賦予多模態大模型定位物體的能力,乃至于將文字內容和圖像區域關聯起來,做到“言之有物”,是當前一大研究熱點。
        常見的做法是微調大語言模型使其直接輸出物體坐標。然而這種方法卻有著諸多限制:
        1、在文本上預訓練的大語言模型本身不具備空間理解能力,僅依靠少量數據微調很難精準定位物體。
        2、定位任務對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態大模型的計算量。
        3、大語言模型的輸出形式不適合


        原文鏈接:港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费看一区二区三区四区| 亚洲天天在线日亚洲洲精| 亚洲午夜无码毛片av久久京东热| 久久久久久av无码免费看大片| 久久亚洲私人国产精品vA| 亚洲中文字幕无码av在线| 91人人区免费区人人| 4480yy私人影院亚洲| 91麻豆最新在线人成免费观看| 免费人成网站在线高清| 九九精品国产亚洲AV日韩| 免费夜色污私人影院网站电影| 久久久久久久久久国产精品免费| 亚洲精品无码不卡在线播HE| 最近免费mv在线观看动漫| 亚洲第一视频网站| www亚洲精品久久久乳| 国产一区二区三区无码免费| 黄色a三级三级三级免费看| 国产精品V亚洲精品V日韩精品 | 精品亚洲国产成人av| 四虎国产精品免费视| 一区二区三区在线免费观看视频 | 国产大片51精品免费观看| 黄色片网站在线免费观看| 国产午夜亚洲不卡| 国产免费无码AV片在线观看不卡| 久久亚洲AV成人出白浆无码国产| 最新中文字幕电影免费观看| 久久亚洲中文字幕精品一区四| 国产一级黄片儿免费看| 亚洲卡一卡2卡三卡4麻豆| 在线观看亚洲免费视频| 成人免费一区二区三区| 亚洲国产成a人v在线| 免费久久精品国产片香蕉| 国产好大好硬好爽免费不卡| 亚洲AV无码成H人在线观看| 免费看无码特级毛片| 亚洲综合在线一区二区三区| 中文字幕不卡亚洲|