Meta發(fā)布多模態(tài)模型Chameleon:34B、類(lèi)GPT-4o、性能接近GPT-4V
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta發(fā)布多模態(tài)模型Chameleon:34B、類(lèi)GPT-4o、性能接近GPT-4V
關(guān)鍵字:模型,圖像,報(bào)告,文本,分詞
文章來(lái)源:Founder Park
內(nèi)容字?jǐn)?shù):8311字
內(nèi)容摘要:
GPT-4o 的橫空出世,再次創(chuàng)立了一個(gè)多模態(tài)模型發(fā)展的新范式。OpenAI 將其稱(chēng)為「首個(gè)『原生』多模態(tài)」模型,意味著 GPT-4o 與以往所有的模型,都不盡相同。傳統(tǒng)的多模態(tài)基礎(chǔ)模型,通常為每種模態(tài)采用特定的「編碼器」或「解碼器」,將不同的模態(tài)分離開(kāi)。
然而,這種方法限制了模型,有效融合跨模態(tài)信息的能力。官博介紹,GPT-4o 是「首個(gè)端到端」訓(xùn)練的,跨越文本、視覺(jué)和音頻的模型,所有的輸入和輸出,都由單個(gè)神經(jīng)網(wǎng)絡(luò)處理。
而現(xiàn)在,業(yè)界首個(gè)敢于挑戰(zhàn) GPT-4o 的模型現(xiàn)身了。
最近,來(lái)自 Meta 團(tuán)隊(duì)的研究人員發(fā)布了「混合模態(tài)基座模型」——Chameleon(變色龍)。
論文地址:https://arxiv.org/pdf/2405.09818
與 GPT-4o 一樣,Chameleon 采用了統(tǒng)一的 Transformer 架構(gòu),使用文本、圖像和代碼混合模態(tài)完成訓(xùn)練。以類(lèi)似文本生成的方式,對(duì)圖像進(jìn)行離散「分詞化」(tokenization),最終生成和推理交錯(cuò)的文本和圖像序列。
這種「早期融合」的方法,所有的 pipeline 從一開(kāi)始就被映射到一個(gè)共同的表示空間,因此模型可以無(wú)
原文鏈接:Meta發(fā)布多模態(tài)模型Chameleon:34B、類(lèi)GPT-4o、性能接近GPT-4V
聯(lián)系作者
文章來(lái)源:Founder Park
作者微信:Founder-Park
作者簡(jiǎn)介:來(lái)自極客公園,專(zhuān)注與科技創(chuàng)業(yè)者聊「真問(wèn)題」。
相關(guān)文章
