探索LLM與擴(kuò)散模型的結(jié)合:未來(lái)多模態(tài)大模型的無(wú)限可能性
大規(guī)模多模態(tài)模型訓(xùn)練細(xì)節(jié)~
原標(biāo)題:LLM+Diffusion方案是否值得持續(xù)投入?生成+理解一體多模態(tài)大模型的思考
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2816字
2024中國(guó)生成式AI大會(huì)(上海站)預(yù)告
根據(jù)大會(huì)預(yù)告,2024中國(guó)生成式AI大會(huì)將于12月5日至6日在上海舉辦。本次大會(huì)由智猩猩共同主辦,許多知名嘉賓已確認(rèn)參會(huì)演講,包括北大(臨港)大模型對(duì)齊中心執(zhí)行主任徐驊,騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳賢等30+位專(zhuān)家。歡迎感興趣的朋友報(bào)名參加。
多模態(tài)大模型方案概述
當(dāng)前的多模態(tài)大模型主要分為以下幾種方案:
- 以語(yǔ)言模型為核心:
- Emu3:支持視頻、圖像和文本任務(wù),采用純自回歸(AR)損失。
- Chameleon:專(zhuān)注于圖像和文本任務(wù),同樣使用純AR損失。
- Show-o:圖像部分使用雙向注意力,文字部分為AR損失。
- Janus:結(jié)合兩種視覺(jué)編碼器,文本和圖像均為純AR損失。
- 語(yǔ)言模型+擴(kuò)散模型:
- TransFusion:文字部分使用AR損失,圖像部分使用DDPM損失。
- JanusFlow:文字部分AR損失,圖像部分使用RF損失。
共性結(jié)論與未來(lái)方向
不同方案的共性結(jié)論如下:
- 以LLM為核心的架構(gòu)在訓(xùn)練和推理階段易于擴(kuò)展,但效果尚未達(dá)到頂尖水平。
- 在模型尺寸相當(dāng)?shù)那闆r下,加入擴(kuò)散模型的視覺(jué)生成效果優(yōu)于純LLM架構(gòu)。
- 視覺(jué)編碼器的發(fā)展仍然主要分為理解與生成兩類(lèi),且在各自任務(wù)上表現(xiàn)優(yōu)異。
大規(guī)模多模態(tài)模型的訓(xùn)練細(xì)節(jié)
關(guān)于大規(guī)模多模態(tài)模型的訓(xùn)練,以下是一些關(guān)鍵細(xì)節(jié):
- Chameleon在從零開(kāi)始訓(xùn)練中分享了多項(xiàng)穩(wěn)定。
- Emu3分享了預(yù)訓(xùn)練、后訓(xùn)練及DPO的一些細(xì)節(jié)。
- Janus系列文章探討了訓(xùn)練框架和效率提升的方法。
未來(lái)研究方向
未來(lái)的研究方向包括:
- 如何統(tǒng)一生成與理解的視覺(jué)編碼器,并在大規(guī)模多模態(tài)模型上實(shí)現(xiàn)有效應(yīng)用。
- 視覺(jué)生成與理解任務(wù)在基礎(chǔ)模型層面如何統(tǒng)一,以及相應(yīng)的代理任務(wù)和損失設(shè)計(jì)。
- LLM與擴(kuò)散模型結(jié)合的長(zhǎng)期投資價(jià)值,尤其是在解決誤差累積問(wèn)題上。
總結(jié)來(lái)看,2024中國(guó)生成式AI大會(huì)將為與會(huì)者提供豐富的技術(shù)共享與討論平臺(tái),期待更多研究者和技術(shù)人員的參與與交流。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下矩陣賬號(hào)之一,聚焦大模型開(kāi)啟的通用人工智能浪潮。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...