AIGC動態歡迎閱讀
原標題:走在GPT 4.5前面?3D、視頻直接扔進對話框,大模型掌握跨模態推理
文章來源:機器之心
內容字數:8603字
內容摘要:機器之心報道編輯:Panda W最近,有人在社交媒體上發布了一張有關 GPT4.5 更新的截圖。圖中內容顯示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的驚喜可能就是處理 3D 和視頻的能力。至于 3D 能力到底是指看得懂 3D 圖像,還是能輸入 3D 模型,目前只能靠猜。OpenAI CEO Sam Altman 隨后否認了該截圖的真實性,GPT4.5 的具體能力依然是一個謎。不過,在眾多研究中,確實已經有大模型實現了多個模態同時處理,甚至連視頻、3D 模型也囊括了進來。給你一首曲子的音頻和一件樂器的 3D 模型,然后問你這件樂器能否演奏出這首曲子。你可以通過聽覺來辨認這首曲子的音色,看它是鋼琴曲還是小提琴曲又或是來自吉他;同時用視覺識別那是件什么樂器。然后你就能得到問題的答案。但語言模型有能力辦到這一點嗎?實際上,這個任務所需的能力名為跨模態推理,也是當今多模態大模型研究熱…
原文鏈接:點此閱讀原文:走在GPT 4.5前面?3D、視頻直接扔進對話框,大模型掌握跨模態推理
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...