Meta發布多模態模型Chameleon：34B、類GPT-4o、性能接近GPT-4V

AIGC動態2年前 (2024)發布 Founder Park

AIGC動態歡迎閱讀

原標題：Meta發布多模態模型Chameleon：34B、類GPT-4o、性能接近GPT-4V
關鍵字：模型,圖像,報告,文本,分詞
文章來源：Founder Park
內容字數：8311字

內容摘要：

GPT-4o 的橫空出世，再次創立了一個多模態模型發展的新范式。OpenAI 將其稱為「首個『原生』多模態」模型，意味著 GPT-4o 與以往所有的模型，都不盡相同。傳統的多模態基礎模型，通常為每種模態采用特定的「編碼器」或「解碼器」，將不同的模態分離開。
然而，這種方法限制了模型，有效融合跨模態信息的能力。官博介紹，GPT-4o 是「首個端到端」訓練的，跨越文本、視覺和音頻的模型，所有的輸入和輸出，都由單個神經網絡處理。
而現在，業界首個敢于挑戰 GPT-4o 的模型現身了。
最近，來自 Meta 團隊的研究人員發布了「混合模態基座模型」——Chameleon（變色龍）。
論文地址：https://arxiv.org/pdf/2405.09818
與 GPT-4o 一樣，Chameleon 采用了統一的 Transformer 架構，使用文本、圖像和代碼混合模態完成訓練。以類似文本生成的方式，對圖像進行離散「分詞化」（tokenization），最終生成和推理交錯的文本和圖像序列。
這種「早期融合」的方法，所有的 pipeline 從一開始就被映射到一個共同的表示空間，因此模型可以無

原文鏈接：Meta發布多模態模型Chameleon：34B、類GPT-4o、性能接近GPT-4V