標簽:視覺

紐大具身智能新進展:靠視覺反饋學會開罐頭,任務成功率提高135%,LeCun點贊

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI注意看,這個機器人用手中的鉗子輕松剪斷了一根金屬絲。蓋上的鐵盒子,也三下五除二就打開了。除此之外,物體抓取...
閱讀原文

試過GPT-4V后,微軟寫了個166頁的測評報告,業內人士:高級用戶必讀

機器之心報道編輯:陳萍、張倩這篇由微軟撰寫的報告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。一周之前,ChatGPT迎來,不管是 GPT...
閱讀原文

多模態大模型綜述:從專家到通用助手

文章轉載自量子位,Founder Park 有所調整。多模態大模型最全綜述來了!由微軟 7 位華人研究員撰寫,足足 119 頁——它從目前已經完善的和還處于最前沿的兩類多...
閱讀原文

微軟最新發布:從專家到通用AI代理,一文讀懂「多模態基礎模型」

視覺是人類和其他生物感知世界的主要渠道之一。人工智能(AI)的一個核心愿景是開發 AI 代理,模仿感知、生成視覺信號,與視覺世界進行互動。近日,微軟研究...
閱讀原文

馬毅團隊新作!微調多模態大模型會「災難性遺忘」,讓性能大減

新智元報道編輯:桃子 好困【新智元導讀】馬毅教授團隊最新研究表明,微調多模態大語言模型(MLLM)將會導致災難性遺忘。模型災難性遺忘,成為當前一個關鍵熱...
閱讀原文

文檔字越多,模型越興奮!KOSMOS-2.5:閱讀「文本密集圖像」的多模態大語言模型

新智元報道編輯:LRS 好困【新智元導讀】文字也是一種視覺信息,多模態大語言模型KOSMOS-2.5不光能讀懂論文,還能輸出markdown格式!當前一個顯著的趨勢是致...
閱讀原文

多模態大模型會是未來人機交互的方向嗎?

前言:目前,市面上的交互產品是以單模交互為主,尤其是語音交互。語音類產品的形態主要為語音助手。語音可以帶來比按鍵更便捷的體驗,尤其是,在行車過程中...
閱讀原文

IEEE Fellow 張磊:普及大模型,手機端的創新很關鍵

大模型規模化部署的關鍵與難點是什么?作者|郭 思編輯|陳彩嫻2022年底以來,以ChatGPT為代表的大模型集中爆發,實現了從無到有,從0到1的跨越。而經過近一...
閱讀原文

多模態大模型最全綜述來了!7位微軟研究員大力合作,5大主題,成文119頁

豐色 發自 凹非寺量子位 | 公眾號 QbitAI多模態大模型最全綜述來了!由微軟7位華人研究員撰寫,足足119頁——它從目前已經完善的和還處于最前沿的兩類多模態大...
閱讀原文

OpenAI放大招“對打”谷歌Gemini:全力籌備多模態大模型,并發布新指令語言模型

編譯 | 凌敏、核子可樂 這場大模型時代的較量,誰能笑到最后? 自去年年底通過 ChatGPT 驚艷全球以來,OpenAI 一直保持著驚人的產品發布速度,通過迅如閃電的...
閱讀原文

七次 CV 奪冠背后:顏水成與他的學生們

一波深度學習浪潮、七次世界冠軍、兩次轉場與追隨......作者 | 李梅 郭思編輯| 岑峰他們不僅乘上了 AI 的浪潮,更創造了浪潮本身。1冠軍團隊的誕生2007 年,...
閱讀原文

涉水視覺:從關鍵技術到智能裝備

機器之心專欄機器之心編輯部為什么大海是藍色的?這個古老而又神秘的問題一直以來都讓人好奇不已。在《涉水視覺》(Water-related Vision)一文中,作者從光...
閱讀原文

RACV2023觀點集錦 | 大模型&ChatGPT對計算機視覺的影響

夕小瑤科技說 分享來源 | CCF計算機視覺專委會 引言 隨著ChatGPT熱潮襲來,大模型如何在計算機視覺里發揮重要作用、如何應用大模型服務各種視覺任務、如何借...
閱讀原文

阿里云AI大模型通義千問通過備案,今日正式向全社會開放!

隨著ChatGPT的快速進化吸引了全球網友的眼球,國內廠商也紛紛表示將推出相似的產品。而在前段時間,小編曾給大家整理過現在已經宣布推出的國產AI,包括百度“...
閱讀原文

Meta發布大規模視覺模型評估基準FACET!開源視覺模型DINOv2允許商用

夕小瑤科技說 原創作者 | 謝年年近日,Meta宣布開源計算機視覺模型DINOv2現在可商業化應用了,并發布了全新的視覺模型評估新基準FACET。DINOv2是Meta AI繼「...
閱讀原文
117181920