AIGC動態歡迎閱讀
原標題:蘇劍林:“閉門造車”之多模態模型方案淺談
關鍵字:圖像,模型,報告,解讀,文本
文章來源:算法邦
內容字數:14978字
內容摘要:
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身智能技術研討會、AI智能體技術研討會和中國智算中心創新論壇。掃名,也可咨詢。導讀本文作者為蘇劍林,來自月之暗面。這篇文章分享一下筆者關于多模態模型架構的一些想法,或者說一些猜測。這篇文章分享一下筆者關于多模態模型架構的一些閉門造車的想法,或者說一些猜測。
最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次點燃了不少人對多模態的熱情,只言片語的技術報告也引起了大家對其背后模型架構的熱烈猜測。不過,本文并非是為了湊這個熱鬧才發出來的,事實上其中的一些思考由來已久,最近才勉強捋順了一下,遂想寫出來跟大家交流一波,剛好碰上了兩者的發布。
事先聲明,“閉門造車”一詞并非自謙,筆者的大模型實踐本就“乏善可陳”,而多模態實踐更是幾乎“一片空白”,本文確實只是根據以往文本生成和圖像生成的一些經驗所做的“主觀臆測”。
01問題背景首先簡化一下問題,本文所討論的多模態,主要指圖文混合的雙
原文鏈接:蘇劍林:“閉門造車”之多模態模型方案淺談
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...