Meta首發(fā)「變色龍」挑戰(zhàn)GPT-4o,34B參數(shù)引領(lǐng)多模態(tài)!10萬億token訓(xùn)練刷新SOTA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta首發(fā)「變色龍」挑戰(zhàn)GPT-4o,34B參數(shù)引領(lǐng)多模態(tài)!10萬億token訓(xùn)練刷新SOTA
關(guān)鍵字:模型,圖像,報(bào)告,文本,數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):8186字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子喬楊
【新智元導(dǎo)讀】GPT-4o發(fā)布不到一周,首個(gè)敢于挑戰(zhàn)王者的新模型誕生!最近,Meta團(tuán)隊(duì)發(fā)布了「混合模態(tài)」Chameleon,可以在單一神經(jīng)網(wǎng)絡(luò)無縫處理文本和圖像。10萬億token訓(xùn)練的34B參數(shù)模型性能接近GPT-4V,刷新SOTA。GPT-4o的橫空出世,再次創(chuàng)立了一個(gè)多模態(tài)模型發(fā)展的新范式!
為什么這么說?
OpenAI將其稱為「首個(gè)『原生』多模態(tài)」模型,意味著GPT-4o與以往所有的模型,都不盡相同。
傳統(tǒng)的多模態(tài)基礎(chǔ)模型,通常為每種模態(tài)采用特定的「編碼器」或「解碼器」,將不同的模態(tài)分離開。
然而,這種方法限制了模型,有效融合跨模態(tài)信息的能力。
官博介紹,GPT-4o是「首個(gè)端到端」訓(xùn)練的,跨越文本、視覺和音頻的模型,所有的輸入和輸出,都由單個(gè)神經(jīng)網(wǎng)絡(luò)處理。
而現(xiàn)在,業(yè)界首個(gè)敢于挑戰(zhàn)GPT-4o的模型現(xiàn)身了!
最近,來自Meta團(tuán)隊(duì)的研究人員發(fā)布了「混合模態(tài)基座模型」——Chameleon(變色龍)。
論文地址:https://arxiv.org/pdf/2405.09818
與GPT-4o一樣,Chameleon采用了統(tǒng)一的Transformer
原文鏈接:Meta首發(fā)「變色龍」挑戰(zhàn)GPT-4o,34B參數(shù)引領(lǐng)多模態(tài)!10萬億token訓(xùn)練刷新SOTA
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。