標簽:視覺

高級人工智能能否解決視覺難題并進行抽象推理?

人工智能已經學會了掌握語言、創作藝術,甚至在國際象棋比賽中擊敗了大師。但它能破解抽象推理的密碼嗎?這些讓人類困惑的棘手視覺謎題?研究人員正在測試人...
閱讀原文

ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態表征預訓練方法 | 講座預告

近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關注。VLCM 智能體可以通過視覺理解環境,并執行人類語言...
閱讀原文

擴散模型訓練方法一直錯了!謝賽寧:Representation matters

機器之心報道 編輯:Panda、小舟Representation matters. Representation matters. Representation matters.是什么讓紐約大學著名研究者謝賽寧三連呼喊「Repr...
閱讀原文

ECCV 2024 | 像ChatGPT一樣,聊就能實現三維場景編輯

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

為何馬斯克的“盲視”不可能超越肉眼?

大數據文摘授權轉載自追問nextquestion 我常想,假如上帝給我三天光明,我最想看什么呢?或者我將怎樣享受這份幸福呢?當我這樣想的時候,也請你想一下吧。請...
閱讀原文

OpenAI 開發者大會!實時語音功能有API了,GPT-4o支持多模態微調,上下文cache功能上線

夕小瑤科技說 原創作者 | 付奶茶家人們!十一假期第1天, OpenAI一年一度的開發者大會又來了惹!今年的開發者大會分成三部分分別在美國、英國、新加坡三個地...
閱讀原文

奧特曼:自認比o1聰明請舉手?到o2還這么想么??|OpenAI開發者日

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI奧特曼:認為自己比o1更聰明的請舉手。(臺下一些人舉手)奧特曼:到了o2你們還會這么想么?(汗流浹背了) 這一幕,...
閱讀原文

從數據增強的隱藏作用出發,揭示視覺強化學習可塑性損失的獨特機制

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態架構Oryx

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

從BLIP-2到Qwen2-VL,多模態大模型的技術點總結

開講預約導讀原文來自知乎,作者為jewellery,標題為《多模態大模型技術點總結》。作者對BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
閱讀原文

詹姆斯·卡梅隆:那位徹底改變電影的導演,如何用 AI 續寫傳奇?

點擊上方藍字關注我們“著名導演詹姆斯·卡梅隆將加入人工智能公司Stability AI的董事會,助力該公司在生成AI與視覺特效結合的前沿探索。這一合作引發了好萊塢...
閱讀原文

英偉達開源NVLM 1.0屠榜多模態!純文本性能不降反升

新智元報道編輯:LRS 【新智元導讀】NVLM 1.0系列多模態大型語言模型在視覺語言任務上達到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了L...
閱讀原文

新SOTA來了:國產9B模型多項得分超4o-mini,中國出海電商已經用上了

煢煢 發自 凹非寺量子位 | 公眾號 QbitAI阿里開源,又拿第一了。 這次是在多模態領域: 就在剛剛,阿里國際AI團隊開源多模態大模型Ovis1.6。在多模態權威綜合...
閱讀原文

MMMU華人團隊更新Pro版!多模態基準升至史詩級難度:過濾純文本問題、引入純視覺問答

新智元報道編輯:LRS 【新智元導讀】MMMU-Pro通過三步構建過程(篩選問題、增加候選選項、引入純視覺輸入設置)更嚴格地評估模型的多模態理解能力;模型在新...
閱讀原文

阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%

mPLUG團隊 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解,阿里通義實驗室mPLUG團隊拿下新SOTA。 最新多模態大模型mPLUG-DocOwl 2,僅以324個視覺token表示單...
閱讀原文
1234520