標簽:視覺
高級人工智能能否解決視覺難題并進行抽象推理?
人工智能已經(jīng)學會了掌握語言、創(chuàng)作藝術(shù),甚至在國際象棋比賽中擊敗了大師。但它能破解抽象推理的密碼嗎?這些讓人類困惑的棘手視覺謎題?研究人員正在測試人...
ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態(tài)表征預訓練方法 | 講座預告
近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關(guān)注。VLCM 智能體可以通過視覺理解環(huán)境,并執(zhí)行人類語言...
擴散模型訓練方法一直錯了!謝賽寧:Representation matters
機器之心報道 編輯:Panda、小舟Representation matters. Representation matters. Representation matters.是什么讓紐約大學著名研究者謝賽寧三連呼喊「Repr...
ECCV 2024 | 像ChatGPT一樣,聊就能實現(xiàn)三維場景編輯
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
為何馬斯克的“盲視”不可能超越肉眼?
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自追問nextquestion 我常想,假如上帝給我三天光明,我最想看什么呢?或者我將怎樣享受這份幸福呢?當我這樣想的時候,也請你想一下吧。請...
OpenAI 開發(fā)者大會!實時語音功能有API了,GPT-4o支持多模態(tài)微調(diào),上下文cache功能上線
夕小瑤科技說 原創(chuàng)作者 | 付奶茶家人們!十一假期第1天, OpenAI一年一度的開發(fā)者大會又來了惹!今年的開發(fā)者大會分成三部分分別在美國、英國、新加坡三個地...
奧特曼:自認比o1聰明請舉手?到o2還這么想么??|OpenAI開發(fā)者日
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI奧特曼:認為自己比o1更聰明的請舉手。(臺下一些人舉手)奧特曼:到了o2你們還會這么想么?(汗流浹背了) 這一幕,...
從數(shù)據(jù)增強的隱藏作用出發(fā),揭示視覺強化學習可塑性損失的獨特機制
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
從BLIP-2到Qwen2-VL,多模態(tài)大模型的技術(shù)點總結(jié)
開講預約導讀原文來自知乎,作者為jewellery,標題為《多模態(tài)大模型技術(shù)點總結(jié)》。作者對BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
詹姆斯·卡梅隆:那位徹底改變電影的導演,如何用 AI 續(xù)寫傳奇?
點擊上方藍字關(guān)注我們“著名導演詹姆斯·卡梅隆將加入人工智能公司Stability AI的董事會,助力該公司在生成AI與視覺特效結(jié)合的前沿探索。這一合作引發(fā)了好萊塢...
英偉達開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升
新智元報道編輯:LRS 【新智元導讀】NVLM 1.0系列多模態(tài)大型語言模型在視覺語言任務上達到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了L...
新SOTA來了:國產(chǎn)9B模型多項得分超4o-mini,中國出海電商已經(jīng)用上了
煢煢 發(fā)自 凹非寺量子位 | 公眾號 QbitAI阿里開源,又拿第一了。 這次是在多模態(tài)領(lǐng)域: 就在剛剛,阿里國際AI團隊開源多模態(tài)大模型Ovis1.6。在多模態(tài)權(quán)威綜合...
MMMU華人團隊更新Pro版!多模態(tài)基準升至史詩級難度:過濾純文本問題、引入純視覺問答
新智元報道編輯:LRS 【新智元導讀】MMMU-Pro通過三步構(gòu)建過程(篩選問題、增加候選選項、引入純視覺輸入設置)更嚴格地評估模型的多模態(tài)理解能力;模型在新...
阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%
mPLUG團隊 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解,阿里通義實驗室mPLUG團隊拿下新SOTA。 最新多模態(tài)大模型mPLUG-DocOwl 2,僅以324個視覺token表示單...