標(biāo)簽:視覺
高級(jí)人工智能能否解決視覺難題并進(jìn)行抽象推理?
人工智能已經(jīng)學(xué)會(huì)了掌握語言、創(chuàng)作藝術(shù),甚至在國際象棋比賽中擊敗了大師。但它能破解抽象推理的密碼嗎?這些讓人類困惑的棘手視覺謎題?研究人員正在測試人...
ICML’24研討會(huì)杰出論文獎(jiǎng)!清華AIR&商湯研究院提出全新的具身多模態(tài)表征預(yù)訓(xùn)練方法 | 講座預(yù)告
近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關(guān)注。VLCM 智能體可以通過視覺理解環(huán)境,并執(zhí)行人類語言...
擴(kuò)散模型訓(xùn)練方法一直錯(cuò)了!謝賽寧:Representation matters
機(jī)器之心報(bào)道 編輯:Panda、小舟Representation matters. Representation matters. Representation matters.是什么讓紐約大學(xué)著名研究者謝賽寧三連呼喊「Repr...
ECCV 2024 | 像ChatGPT一樣,聊就能實(shí)現(xiàn)三維場景編輯
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
為何馬斯克的“盲視”不可能超越肉眼?
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自追問nextquestion 我常想,假如上帝給我三天光明,我最想看什么呢?或者我將怎樣享受這份幸福呢?當(dāng)我這樣想的時(shí)候,也請(qǐng)你想一下吧。請(qǐng)...
OpenAI 開發(fā)者大會(huì)!實(shí)時(shí)語音功能有API了,GPT-4o支持多模態(tài)微調(diào),上下文cache功能上線
夕小瑤科技說 原創(chuàng)作者 | 付奶茶家人們!十一假期第1天, OpenAI一年一度的開發(fā)者大會(huì)又來了惹!今年的開發(fā)者大會(huì)分成三部分分別在美國、英國、新加坡三個(gè)地...
奧特曼:自認(rèn)比o1聰明請(qǐng)舉手??到o2還這么想么???|OpenAI開發(fā)者日
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI奧特曼:認(rèn)為自己比o1更聰明的請(qǐng)舉手。(臺(tái)下一些人舉手)奧特曼:到了o2你們還會(huì)這么想么?(汗流浹背了) 這一幕,...
從數(shù)據(jù)增強(qiáng)的隱藏作用出發(fā),揭示視覺強(qiáng)化學(xué)習(xí)可塑性損失的獨(dú)特機(jī)制
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
從BLIP-2到Qwen2-VL,多模態(tài)大模型的技術(shù)點(diǎn)總結(jié)
開講預(yù)約導(dǎo)讀原文來自知乎,作者為jewellery,標(biāo)題為《多模態(tài)大模型技術(shù)點(diǎn)總結(jié)》。作者對(duì)BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
詹姆斯·卡梅隆:那位徹底改變電影的導(dǎo)演,如何用 AI 續(xù)寫傳奇?
點(diǎn)擊上方藍(lán)字關(guān)注我們“著名導(dǎo)演詹姆斯·卡梅隆將加入人工智能公司Stability AI的董事會(huì),助力該公司在生成AI與視覺特效結(jié)合的前沿探索。這一合作引發(fā)了好萊塢...
英偉達(dá)開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升
新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】NVLM 1.0系列多模態(tài)大型語言模型在視覺語言任務(wù)上達(dá)到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了L...
新SOTA來了:國產(chǎn)9B模型多項(xiàng)得分超4o-mini,中國出海電商已經(jīng)用上了
煢煢 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI阿里開源,又拿第一了。 這次是在多模態(tài)領(lǐng)域: 就在剛剛,阿里國際AI團(tuán)隊(duì)開源多模態(tài)大模型Ovis1.6。在多模態(tài)權(quán)威綜合...
MMMU華人團(tuán)隊(duì)更新Pro版!多模態(tài)基準(zhǔn)升至史詩級(jí)難度:過濾純文本問題、引入純視覺問答
新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】MMMU-Pro通過三步構(gòu)建過程(篩選問題、增加候選選項(xiàng)、引入純視覺輸入設(shè)置)更嚴(yán)格地評(píng)估模型的多模態(tài)理解能力;模型在新...
阿里8B模型拿下多頁文檔理解新SOTA,324個(gè)視覺token表示一頁,縮減80%
mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI高效多頁文檔理解,阿里通義實(shí)驗(yàn)室mPLUG團(tuán)隊(duì)拿下新SOTA。 最新多模態(tài)大模型mPLUG-DocOwl 2,僅以324個(gè)視覺token表示單...