標簽:視覺

GPT-4V連小學生都不如?最新基準測試錯誤率竟高達90%:紅綠燈認錯、勾股定理也不會

新智元報道編輯:LRS 好困【新智元導讀】馬里蘭大學發布首個專為VLM設計的基準測試HallusionBench,全面測試GPT-4V視覺錯誤和語言幻覺。GPT-4被吹的神乎其神...
閱讀原文

多模態大模型幻覺降低30%!中科大等提出首個幻覺修正架構「Woodpecker」啄木鳥

新智元報道編輯:好困【新智元導讀】最近,來自中科大等機構的研究人員提出了首個多模態修正架構「啄木鳥」,可有效解決MLLM輸出幻覺的問題。視覺幻覺是常見...
閱讀原文

1/10體量達到SOTA!谷歌發布5B參數視覺語言模型PaLI-3,更小更快卻更強

新智元報道編輯:貝果 潤【新智元導讀】谷歌研究院和DeepMind研究人員推出最新PaLI-3視覺語言模型(VLM),模型以更小、更快、更強的特點獲得大部分研究人員...
閱讀原文

清華光電計算新突破:芯片性能提升萬倍,研究登頂Nature

機器之心專欄機器之心編輯部清華大學團隊在超高性能計算芯片領域取得新突破,相關研究發表在Nature上。隨著各類大模型和深度神經網絡的涌現,如何制造出滿足...
閱讀原文

別再吹 GPT-4V 了!連北京烤鴨都不認識,你敢信??

夕小瑤科技說 原創作者 | 智商掉了一地、ZenMooreGPT-4 被吹的神乎其神,作為具備視覺能力的 GPT-4 版本——GPT-4V,也被大眾寄于了厚望。但如果告訴你,GPT-4V...
閱讀原文

在視覺提示中加入「標記」,微軟等讓GPT-4V看的更準、分的更細

機器之心報道編輯:杜偉、小舟全新視覺提示方法 SoM(Set-of-Mark),讓 OpenAI 多模態大模型 GPT-4V 在視覺內容理解方面有了質的提升。最近一段時間,我們見...
閱讀原文

利用視覺大模型,虹軟引發商拍市場一場豹變|甲子光年

虹軟PhotoStudio? AI殺入“賣家秀” 。作者|陳楊編輯|王博“雙11”大促即將開啟,但今年的“賣家秀”會有一些不一樣。10月23日,虹軟科技創新產品——PhotoStudio? ...
閱讀原文

今秋首個AIGC爆款應用來了?電商賣家秀一鍵生成,虹軟變革商拍玩法

解密AIGC商拍圖工廠!電商狂喜的工具,動動鼠標就能給虛擬人換裝。作者|三北編輯|漠影AI不僅能修圖,現在也能干攝影師和模特的活了!智東西10月23日報道,今...
閱讀原文

讓大模型看圖比打字管用!NeurIPS 2023新研究提出多模態查詢方法,準確率提升7.8%

轉載自 沁園夏量子位 | 公眾號 QbitAI大模型“識圖”能力都這么強了,為啥還老找錯東西?例如,把長得不太像的蝙蝠和拍子搞混,又或是認不出一些數據集中的稀有...
閱讀原文

從「最強2D」升維「最強3D」!智源聯合清北重磅發布10億參數Uni3D視覺大模型

新智元報道編輯:好困【新智元導讀】最近,智源、清華和北大聯合發布了全新的10億參數的3D視覺通用模型——Uni3D,在主流3D視覺能力上取得了全方位的性能突出!...
閱讀原文

AI讀腦成真,延遲僅0.25秒!Meta里程碑新研究:MEG實時解碼大腦圖像,LeCun轉贊

新智元報道編輯:潤 貝果【新智元導讀】Meta AI研發新成果,利用腦電信號將人類大腦活動解碼并可視化。這項研究開辟了一條前所未有的新途徑,能夠幫助科學界...
閱讀原文

馬斯克一覺醒來,純視覺NOA已在中國開跑:上海鬧市一鏡到底0接管,高速城區全都不用自己開

賈浩楠 發自 凹非寺量子位 | 公眾號 QbitAI極越汽車,搞了一個車圈科技圈大新聞:純視覺NOA國內首發上路!一段陸家嘴點到點領航輔助駕駛的實拍視頻剛剛被公開...
閱讀原文

超火迷你GPT-4視覺能力暴漲,GitHub兩萬星,華人團隊出品

白交 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4V來做目標檢測?網友實測:還沒有準備好。雖然檢測到的類別沒問題,但大多數邊界框都錯放了。沒關系,有人會出...
閱讀原文

精確率提升7.8%!首個多模態開放世界檢測大模型MQ-Det登NeurIPS 2023

新智元報道編輯:LRS【新智元導讀】MQ-Det在已有基于文本查詢的檢測大模型基礎上,加入了視覺示例查詢功能,同時保留了高泛化性能和細粒度多模態查詢,在ODin...
閱讀原文

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

機器之心專欄機器之心編輯部MiniGPT-v2 將大語言模型作為視覺語言多任務學習的統一接口。幾個月前,來自 KAUST(沙特阿卜杜拉國王科技大學)的幾位研究者提出...
閱讀原文