標簽:視覺
高級人工智能能否解決視覺難題并進行抽象推理?
人工智能已經學會了掌握語言、創作藝術,甚至在國際象棋比賽中擊敗了大師。但它能破解抽象推理的密碼嗎?這些讓人類困惑的棘手視覺謎題?研究人員正在測試人...
ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態表征預訓練方法 | 講座預告
近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關注。VLCM 智能體可以通過視覺理解環境,并執行人類語言...
擴散模型訓練方法一直錯了!謝賽寧:Representation matters
機器之心報道 編輯:Panda、小舟Representation matters. Representation matters. Representation matters.是什么讓紐約大學著名研究者謝賽寧三連呼喊「Repr...
ECCV 2024 | 像ChatGPT一樣,聊就能實現三維場景編輯
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
為何馬斯克的“盲視”不可能超越肉眼?
大數據文摘授權轉載自追問nextquestion 我常想,假如上帝給我三天光明,我最想看什么呢?或者我將怎樣享受這份幸福呢?當我這樣想的時候,也請你想一下吧。請...
OpenAI 開發者大會!實時語音功能有API了,GPT-4o支持多模態微調,上下文cache功能上線
夕小瑤科技說 原創作者 | 付奶茶家人們!十一假期第1天, OpenAI一年一度的開發者大會又來了惹!今年的開發者大會分成三部分分別在美國、英國、新加坡三個地...
奧特曼:自認比o1聰明請舉手?到o2還這么想么??|OpenAI開發者日
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI奧特曼:認為自己比o1更聰明的請舉手。(臺下一些人舉手)奧特曼:到了o2你們還會這么想么?(汗流浹背了) 這一幕,...
從數據增強的隱藏作用出發,揭示視覺強化學習可塑性損失的獨特機制
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態架構Oryx
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
從BLIP-2到Qwen2-VL,多模態大模型的技術點總結
開講預約導讀原文來自知乎,作者為jewellery,標題為《多模態大模型技術點總結》。作者對BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
詹姆斯·卡梅隆:那位徹底改變電影的導演,如何用 AI 續寫傳奇?
點擊上方藍字關注我們“著名導演詹姆斯·卡梅隆將加入人工智能公司Stability AI的董事會,助力該公司在生成AI與視覺特效結合的前沿探索。這一合作引發了好萊塢...
英偉達開源NVLM 1.0屠榜多模態!純文本性能不降反升
新智元報道編輯:LRS 【新智元導讀】NVLM 1.0系列多模態大型語言模型在視覺語言任務上達到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了L...
新SOTA來了:國產9B模型多項得分超4o-mini,中國出海電商已經用上了
煢煢 發自 凹非寺量子位 | 公眾號 QbitAI阿里開源,又拿第一了。 這次是在多模態領域: 就在剛剛,阿里國際AI團隊開源多模態大模型Ovis1.6。在多模態權威綜合...
MMMU華人團隊更新Pro版!多模態基準升至史詩級難度:過濾純文本問題、引入純視覺問答
新智元報道編輯:LRS 【新智元導讀】MMMU-Pro通過三步構建過程(篩選問題、增加候選選項、引入純視覺輸入設置)更嚴格地評估模型的多模態理解能力;模型在新...
阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%
mPLUG團隊 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解,阿里通義實驗室mPLUG團隊拿下新SOTA。 最新多模態大模型mPLUG-DocOwl 2,僅以324個視覺token表示單...
粵公網安備 44011502001135號