走在GPT 4.5前面？3D、視頻直接扔進(jìn)對話框，大模型掌握跨模態(tài)推理

AIGC動態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：走在GPT 4.5前面？3D、視頻直接扔進(jìn)對話框，大模型掌握跨模態(tài)推理

文章來源：機(jī)器之心

內(nèi)容字?jǐn)?shù)：8603字

內(nèi)容摘要：機(jī)器之心報道編輯：Panda W最近，有人在社交媒體上發(fā)布了一張有關(guān) GPT4.5 更新的截圖。圖中內(nèi)容顯示，和 GPT 系列之前推出的模型相比，GPT4.5 最大的驚喜可能就是處理 3D 和視頻的能力。至于 3D 能力到底是指看得懂 3D 圖像，還是能輸入 3D 模型，目前只能靠猜。OpenAI CEO Sam Altman 隨后否認(rèn)了該截圖的真實性，GPT4.5 的具體能力依然是一個謎。不過，在眾多研究中，確實已經(jīng)有大模型實現(xiàn)了多個模態(tài)同時處理，甚至連視頻、3D 模型也囊括了進(jìn)來。給你一首曲子的音頻和一件樂器的 3D 模型，然后問你這件樂器能否演奏出這首曲子。你可以通過聽覺來辨認(rèn)這首曲子的音色，看它是鋼琴曲還是小提琴曲又或是來自吉他；同時用視覺識別那是件什么樂器。然后你就能得到問題的答案。但語言模型有能力辦到這一點嗎？實際上，這個任務(wù)所需的能力名為跨模態(tài)推理，也是當(dāng)今多模態(tài)大模型研究熱…

原文鏈接：點此閱讀原文：走在GPT 4.5前面？3D、視頻直接扔進(jìn)對話框，大模型掌握跨模態(tài)推理