<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Liquid

        AI工具7個(gè)月前更新 AI工具集
        877 0 0

        Liquid – 華中科技、字節(jié)、港大聯(lián)合推出的統(tǒng)一多模態(tài)生成框架

        Liquid是由華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)共同開發(fā)的一款極簡(jiǎn)的多模態(tài)生成框架。它利用VQGAN技術(shù)將圖像轉(zhuǎn)化為離散的視覺token,并與文本token共享同一詞匯空間,從而使大型語言模型(LLM)能夠在不改變其結(jié)構(gòu)的情況下實(shí)現(xiàn)視覺生成與理解。

        Liquid是什么

        Liquid是華中科技大學(xué)、字節(jié)跳動(dòng)與香港大合推出的一種極簡(jiǎn)多模態(tài)生成框架。該框架基于VQGAN技術(shù),將圖像編碼為離散的視覺token,并與文本token共享相同的詞匯空間。通過這種方式,Liquid使大型語言模型(LLM)能夠在視覺生成和理解任務(wù)中發(fā)揮作用,而無需對(duì)模型結(jié)構(gòu)進(jìn)行修改。Liquid拋棄了傳統(tǒng)的外部視覺模塊,利用LLM的語義理解能力來完成多模態(tài)任務(wù),從而顯著降低了訓(xùn)練成本(比起從頭開始訓(xùn)練可節(jié)省100倍),在視覺生成和理解方面表現(xiàn)出色,甚至超過了一些擴(kuò)散模型。Liquid揭示了多模態(tài)任務(wù)的規(guī)模規(guī)律,表明隨著模型規(guī)模的擴(kuò)大,視覺與語言任務(wù)之間的沖突逐漸減小,并且兩者能夠相互促進(jìn)。

        Liquid

        Liquid的主要功能

        • 視覺生成:根據(jù)文本描述生成高質(zhì)量圖像,支持多種分辨率和風(fēng)格。
        • 視覺理解:處理與圖像相關(guān)的任務(wù),如視覺問答(VQA)和圖像描述生成。
        • 多模態(tài)融合:將視覺和語言任務(wù)無縫結(jié)合,支持同時(shí)處理文本生成、圖像生成和視覺理解任務(wù)。
        • 高效擴(kuò)展:基于現(xiàn)有的大型語言模型(LLM),通過少量數(shù)據(jù)和低成本訓(xùn)練,快速提升多模態(tài)能力。
        • 語言能力保留:在增強(qiáng)視覺生成能力的同時(shí),保持強(qiáng)大的語言生成和理解能力,適用于多模態(tài)混合任務(wù)。

        Liquid的技術(shù)原理

        • 圖像分詞器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)將圖像編碼為離散視覺token。視覺token與文本token共享同一詞匯表,使得圖像和文本可以以統(tǒng)一的方式進(jìn)行處理。
        • 統(tǒng)一的特征空間:視覺token和文本token在同一特征空間中進(jìn)行學(xué)習(xí),基于“下一token預(yù)測(cè)”任務(wù)進(jìn)行訓(xùn)練,使模型能夠在視覺與語言任務(wù)之間無縫切換與優(yōu)化。
        • 基于LLM的生成:Liquid擴(kuò)展了現(xiàn)有的大型語言模型(LLM),利用其強(qiáng)大的語義理解能力進(jìn)行視覺生成和理解。在LLM中增加視覺token的嵌入,以處理視覺任務(wù),且不需額外的視覺模塊(如CLIP或擴(kuò)散模型)。
        • 多模態(tài)數(shù)據(jù)訓(xùn)練:通過混合數(shù)據(jù)(文本數(shù)據(jù)及圖文對(duì)數(shù)據(jù))進(jìn)行預(yù)訓(xùn)練,讓模型同時(shí)學(xué)言和視覺任務(wù)。通過調(diào)整數(shù)據(jù)比例,優(yōu)化模型在不同任務(wù)上的表現(xiàn)。
        • 雙向促進(jìn)機(jī)制:視覺生成和視覺理解任務(wù)共享統(tǒng)一的token空間,優(yōu)化目標(biāo)一致,二者能夠相互促進(jìn)。當(dāng)增加某一任務(wù)的數(shù)據(jù)時(shí),可以提升模型在另一任務(wù)上的表現(xiàn)。

        Liquid的項(xiàng)目地址

        Liquid的應(yīng)用場(chǎng)景

        • 創(chuàng)意設(shè)計(jì):根據(jù)文本描述生成高質(zhì)量圖像,輔助藝術(shù)創(chuàng)作、廣告設(shè)計(jì)及游戲美術(shù)。
        • 內(nèi)容創(chuàng)作:自動(dòng)生成與文本相關(guān)的圖片,適用于社交媒體、博客及新聞報(bào)道。
        • 視覺問答:理解圖像內(nèi)容并回答相關(guān)問題,廣泛應(yīng)用于教育、客服及智能助手。
        • 多模態(tài)對(duì)話:結(jié)合圖像與文字進(jìn)行智能交互,提升對(duì)話系統(tǒng)的自然性與實(shí)用性。
        • VR/AR應(yīng)用:生成虛擬場(chǎng)景和物體,增強(qiáng)沉浸感和交互體驗(yàn)。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲中文字幕无码av在线| 免费人成视频在线观看不卡| 亚洲熟女少妇一区二区| 一区二区三区在线免费| 免费国产小视频在线观看| 在线亚洲v日韩v| 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 久热综合在线亚洲精品| 怡红院亚洲红怡院在线观看| 国产在线观看免费完整版中文版 | 春暖花开亚洲性无区一区二区| 在线观看免费亚洲| 精品成人一区二区三区免费视频 | 在线观看国产区亚洲一区成人 | 日韩成人免费在线| 国产天堂亚洲国产碰碰| 亚洲精品第一国产综合精品99| 一个人免费播放在线视频看片| 亚洲熟妇无码乱子AV电影| 男人的天堂网免费网站| 在线电影你懂的亚洲| 69成人免费视频无码专区| 天天综合亚洲色在线精品| 亚洲区日韩区无码区| 久久九九全国免费| 亚洲二区在线视频| 国产免费观看网站| 国产精品网站在线观看免费传媒| 亚洲一区二区三区夜色 | 久久久久亚洲av毛片大| 一级毛片免费观看| 丁香婷婷亚洲六月综合色| 免费在线黄色网址| 久草视频在线免费看| 亚洲一区二区三区高清在线观看| 亚洲国产精品一区二区第一页免| 四虎影视在线影院在线观看免费视频| 18亚洲男同志videos网站| 免费国产成人午夜电影| 57pao一国产成视频永久免费| 亚洲AV永久无码精品一福利|