AIGC動態歡迎閱讀
原標題:完全開源!謝賽寧發布最新SOTA多模態模型Cambrian-1,“不與GPT-4V媲美”
關鍵字:視覺,基準,數據,編碼器,模型
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 21#
6月15日,智源大會「多模態大模型」論壇中,紐約大學助理教授謝賽寧從哲學的角度出發,分享了AI是否需要更強的視覺基礎來實現理解和意義。
昨天,楊立坤、謝賽寧團隊推出其最新研究工作,聚焦多模態模型視覺,發布以視覺為中心的多模態大語言模型(MLLM)–Cambrian-1。
Cambrian-1不僅實現了SOTA,還提供了一個全面的、開放的指令調優MLLMs的指南,并且完全開源。
謝賽寧本科畢業于上海交通大學,曾在Facebook人工智能研究院擔任研究科學家謝賽寧從Meta離職,加入紐約大學擔任助理教授。
論文題目: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
論文鏈接: https://arxiv.org/pdf/2406.16860
接下來,讓我們來看看研究的具體細節。
總的來說,Cambrian-1在傳統協議與使用MLLMs評估視覺表示之間建立了聯系,使用MLLM指令微調作為各種視覺表示的評估協議,MLLMs通過視覺問答來解決多種現實世界中的感知任
原文鏈接:完全開源!謝賽寧發布最新SOTA多模態模型Cambrian-1,“不與GPT-4V媲美”
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189