蘇劍林:“閉門造車”之多模態(tài)模型方案淺談

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘇劍林:“閉門造車”之多模態(tài)模型方案淺談
關(guān)鍵字:圖像,模型,報(bào)告,解讀,文本
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):14978字
內(nèi)容摘要:
智猩猩和智東西發(fā)起主辦的2024中國(guó)生成式AI大會(huì)將于4月18-19日在北京舉辦。主會(huì)場(chǎng)將進(jìn)行開(kāi)幕式、大模型專場(chǎng)、AI Infra專場(chǎng)和AIGC應(yīng)用專場(chǎng);分會(huì)場(chǎng)將進(jìn)行具身智能技術(shù)研討會(huì)、AI智能體技術(shù)研討會(huì)和中國(guó)智算中心創(chuàng)新論壇。掃名,也可咨詢。導(dǎo)讀本文作者為蘇劍林,來(lái)自月之暗面。這篇文章分享一下筆者關(guān)于多模態(tài)模型架構(gòu)的一些想法,或者說(shuō)一些猜測(cè)。這篇文章分享一下筆者關(guān)于多模態(tài)模型架構(gòu)的一些閉門造車的想法,或者說(shuō)一些猜測(cè)。
最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次點(diǎn)燃了不少人對(duì)多模態(tài)的熱情,只言片語(yǔ)的技術(shù)報(bào)告也引起了大家對(duì)其背后模型架構(gòu)的熱烈猜測(cè)。不過(guò),本文并非是為了湊這個(gè)熱鬧才發(fā)出來(lái)的,事實(shí)上其中的一些思考由來(lái)已久,最近才勉強(qiáng)捋順了一下,遂想寫出來(lái)跟大家交流一波,剛好碰上了兩者的發(fā)布。
事先聲明,“閉門造車”一詞并非自謙,筆者的大模型實(shí)踐本就“乏善可陳”,而多模態(tài)實(shí)踐更是幾乎“一片空白”,本文確實(shí)只是根據(jù)以往文本生成和圖像生成的一些經(jīng)驗(yàn)所做的“主觀臆測(cè)”。
01問(wèn)題背景首先簡(jiǎn)化一下問(wèn)題,本文所討論的多模態(tài),主要指圖文混合的雙
原文鏈接:蘇劍林:“閉門造車”之多模態(tài)模型方案淺談
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。

粵公網(wǎng)安備 44011502001135號(hào)