大規模多模態模型訓練細節~

原標題:LLM+Diffusion方案是否值得持續投入?生成+理解一體多模態大模型的思考
文章來源:智猩猩GenAI
內容字數:2816字
2024中國生成式AI大會(上海站)預告
根據大會預告,2024中國生成式AI大會將于12月5日至6日在上海舉辦。本次大會由智猩猩共同主辦,許多知名嘉賓已確認參會演講,包括北大(臨港)大模型對齊中心執行主任徐驊,騰訊優圖實驗室負責人吳賢等30+位專家。歡迎感興趣的朋友報名參加。
多模態大模型方案概述
當前的多模態大模型主要分為以下幾種方案:
- 以語言模型為核心:
- Emu3:支持視頻、圖像和文本任務,采用純自回歸(AR)損失。
- Chameleon:專注于圖像和文本任務,同樣使用純AR損失。
- Show-o:圖像部分使用雙向注意力,文字部分為AR損失。
- Janus:結合兩種視覺編碼器,文本和圖像均為純AR損失。
- 語言模型+擴散模型:
- TransFusion:文字部分使用AR損失,圖像部分使用DDPM損失。
- JanusFlow:文字部分AR損失,圖像部分使用RF損失。
共性結論與未來方向
不同方案的共性結論如下:
- 以LLM為核心的架構在訓練和推理階段易于擴展,但效果尚未達到頂尖水平。
- 在模型尺寸相當的情況下,加入擴散模型的視覺生成效果優于純LLM架構。
- 視覺編碼器的發展仍然主要分為理解與生成兩類,且在各自任務上表現優異。
大規模多模態模型的訓練細節
關于大規模多模態模型的訓練,以下是一些關鍵細節:
- Chameleon在從零開始訓練中分享了多項穩定。
- Emu3分享了預訓練、后訓練及DPO的一些細節。
- Janus系列文章探討了訓練框架和效率提升的方法。
未來研究方向
未來的研究方向包括:
- 如何統一生成與理解的視覺編碼器,并在大規模多模態模型上實現有效應用。
- 視覺生成與理解任務在基礎模型層面如何統一,以及相應的代理任務和損失設計。
- LLM與擴散模型結合的長期投資價值,尤其是在解決誤差累積問題上。
總結來看,2024中國生成式AI大會將為與會者提供豐富的技術共享與討論平臺,期待更多研究者和技術人員的參與與交流。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號