LeCun謝賽寧首發全新視覺多模態模型，等效1000張A100干翻GPT-4V

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：LeCun謝賽寧首發全新視覺多模態模型，等效1000張A100干翻GPT-4V
關鍵字：視覺,模型,基準,數據,表征
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】近日，LeCun和謝賽寧等大佬，共同提出了這一種全新的SOTA MLLM——Cambrian-1。開創了以視覺為中心的方法來設計多模態模型，同時全面開源了模型權重、代碼、數據集，以及詳細的指令微調和評估方法。在寒武紀大爆發中，視覺的出現對于早期動物至關重要。
捕食、避險、引導進化，穿越時間，組成了多彩的世界。
大多數人類知識，也都是通過視覺、聽覺、觸覺、味覺和嗅覺等感官體驗，以及與物理世界的交互所獲得。
對應到大模型的學習，雖然更大的規模可以增強多模態的能力，但視覺方面的研究和設計似乎沒有跟上。
另一方面，過度依賴語言，則可能會成為多模態學習研究的瓶頸。
近日，LeCun和謝賽寧團隊推出了Cambrian-1，一項采用以視覺為中心的方法設計多模態大語言模型（MLLM）的研究，同時全面開源了模型權重、代碼、數據集，以及詳細的指令微調和評估方法。
論文地址：https://arxiv.org/abs/2406.16860
開源代碼：https://github.com/cambrian-mllm/cambrian
Cambrian-1使用MLLM指

原文鏈接：LeCun謝賽寧首發全新視覺多模態模型，等效1000張A100干翻GPT-4V