Liquid – 華中科技、字節(jié)、港大聯(lián)合推出的統(tǒng)一多模態(tài)生成框架
Liquid是由華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)共同開發(fā)的一款極簡(jiǎn)的多模態(tài)生成框架。它利用VQGAN技術(shù)將圖像轉(zhuǎn)化為離散的視覺token,并與文本token共享同一詞匯空間,從而使大型語言模型(LLM)能夠在不改變其結(jié)構(gòu)的情況下實(shí)現(xiàn)視覺生成與理解。
Liquid是什么
Liquid是華中科技大學(xué)、字節(jié)跳動(dòng)與香港大合推出的一種極簡(jiǎn)多模態(tài)生成框架。該框架基于VQGAN技術(shù),將圖像編碼為離散的視覺token,并與文本token共享相同的詞匯空間。通過這種方式,Liquid使大型語言模型(LLM)能夠在視覺生成和理解任務(wù)中發(fā)揮作用,而無需對(duì)模型結(jié)構(gòu)進(jìn)行修改。Liquid拋棄了傳統(tǒng)的外部視覺模塊,利用LLM的語義理解能力來完成多模態(tài)任務(wù),從而顯著降低了訓(xùn)練成本(比起從頭開始訓(xùn)練可節(jié)省100倍),在視覺生成和理解方面表現(xiàn)出色,甚至超過了一些擴(kuò)散模型。Liquid揭示了多模態(tài)任務(wù)的規(guī)模規(guī)律,表明隨著模型規(guī)模的擴(kuò)大,視覺與語言任務(wù)之間的沖突逐漸減小,并且兩者能夠相互促進(jìn)。
Liquid的主要功能
- 視覺生成:根據(jù)文本描述生成高質(zhì)量圖像,支持多種分辨率和風(fēng)格。
- 視覺理解:處理與圖像相關(guān)的任務(wù),如視覺問答(VQA)和圖像描述生成。
- 多模態(tài)融合:將視覺和語言任務(wù)無縫結(jié)合,支持同時(shí)處理文本生成、圖像生成和視覺理解任務(wù)。
- 高效擴(kuò)展:基于現(xiàn)有的大型語言模型(LLM),通過少量數(shù)據(jù)和低成本訓(xùn)練,快速提升多模態(tài)能力。
- 語言能力保留:在增強(qiáng)視覺生成能力的同時(shí),保持強(qiáng)大的語言生成和理解能力,適用于多模態(tài)混合任務(wù)。
Liquid的技術(shù)原理
- 圖像分詞器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)將圖像編碼為離散視覺token。視覺token與文本token共享同一詞匯表,使得圖像和文本可以以統(tǒng)一的方式進(jìn)行處理。
- 統(tǒng)一的特征空間:視覺token和文本token在同一特征空間中進(jìn)行學(xué)習(xí),基于“下一token預(yù)測(cè)”任務(wù)進(jìn)行訓(xùn)練,使模型能夠在視覺與語言任務(wù)之間無縫切換與優(yōu)化。
- 基于LLM的生成:Liquid擴(kuò)展了現(xiàn)有的大型語言模型(LLM),利用其強(qiáng)大的語義理解能力進(jìn)行視覺生成和理解。在LLM中增加視覺token的嵌入,以處理視覺任務(wù),且不需額外的視覺模塊(如CLIP或擴(kuò)散模型)。
- 多模態(tài)數(shù)據(jù)訓(xùn)練:通過混合數(shù)據(jù)(文本數(shù)據(jù)及圖文對(duì)數(shù)據(jù))進(jìn)行預(yù)訓(xùn)練,讓模型同時(shí)學(xué)言和視覺任務(wù)。通過調(diào)整數(shù)據(jù)比例,優(yōu)化模型在不同任務(wù)上的表現(xiàn)。
- 雙向促進(jìn)機(jī)制:視覺生成和視覺理解任務(wù)共享統(tǒng)一的token空間,優(yōu)化目標(biāo)一致,二者能夠相互促進(jìn)。當(dāng)增加某一任務(wù)的數(shù)據(jù)時(shí),可以提升模型在另一任務(wù)上的表現(xiàn)。
Liquid的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://foundationvision.github.io/Liquid/
- GitHub倉庫:https://github.com/FoundationVision/Liquid
- HuggingFace模型庫:https://huggingface.co/Junfeng5/Liquid
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.04332
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/Junfeng5/Liquid_demo
Liquid的應(yīng)用場(chǎng)景
- 創(chuàng)意設(shè)計(jì):根據(jù)文本描述生成高質(zhì)量圖像,輔助藝術(shù)創(chuàng)作、廣告設(shè)計(jì)及游戲美術(shù)。
- 內(nèi)容創(chuàng)作:自動(dòng)生成與文本相關(guān)的圖片,適用于社交媒體、博客及新聞報(bào)道。
- 視覺問答:理解圖像內(nèi)容并回答相關(guān)問題,廣泛應(yīng)用于教育、客服及智能助手。
- 多模態(tài)對(duì)話:結(jié)合圖像與文字進(jìn)行智能交互,提升對(duì)話系統(tǒng)的自然性與實(shí)用性。
- VR/AR應(yīng)用:生成虛擬場(chǎng)景和物體,增強(qiáng)沉浸感和交互體驗(yàn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...