標簽:視覺

用視覺來做Prompt!沈向洋展示IDEA研究院新模型,無需訓練或微調,開箱即用

白交 發自 凹非寺量子位 | 公眾號 QbitAI用視覺來做Prompt,是種什么體驗?只需在圖里隨便框一下,結果秒秒鐘圈出同一類別!即便是那種GPT-4V都難搞定的數米...
閱讀原文

懂語言者得天下,IDEA 研究院沈向洋宣布重磅研產結晶

11月22日,AI與數字經濟領域一年一度的科創盛會,2023 IDEA大會在深圳舉行。IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋在會上發表主旨演講,發布ID...
閱讀原文

新王加冕,GPT-4V 屠榜視覺問答

夕小瑤科技說 原創作者 | 智商掉了一地、Python當前,多模態大型模型(Multi-modal Large Language Model, MLLM)在視覺問答(VQA)領域展現了卓越的能力。然...
閱讀原文

提前對齊,視頻問答新SOTA!北大全新Video-LLaVA視覺語言大模型,秒懂視頻笑點

新智元報道編輯:好困【新智元導讀】最近,來自北京大學等機構研究者提出了一種全新視覺語言大模型——Video-LLaVA,使得LLM能夠同時接收圖片和視頻為輸入。Vid...
閱讀原文

北大視頻大模型新SOTA,搞笑抖音視頻AI秒懂笑點|開源

夢晨 發自 凹非寺量子位 | 公眾號 QbitAIAI能理解搞笑視頻笑點在哪里了。AI回答:這個視頻之所以搞笑,在于一個小寶寶正坐在床上努力讀書,但他顯然還不會真...
閱讀原文

爭分奪秒:以人工智能的速度進行戰爭!

往期回顧隨著人工智能發展步伐的加快,美國國防規劃者非常重視人工智能技術在指揮和控制方面所預示的超匹配能力。重要的規劃、規劃和預算編制已經開始,這將...
閱讀原文

OpenAI 疑似 Bug,用戶可以免費跳轉 GPT4

功能介紹AI、自然語言處理、計算機視覺、數據挖掘、數據分析、C、C++。當然,也聊關于程序員的方方面面。…
閱讀原文

微軟用GPT-4V解讀視頻,看懂電影還能講給盲人聽,1小時不是問題

機器之心報道編輯:Panda、陳萍差不多已經掌握語言能力的大模型正在進軍視覺領域,但具有里程碑意義的 GPT-4V 也仍有諸多不足之處,參閱《》。近日,微軟 Azu...
閱讀原文

視覺分詞器統一圖文信息,快手提出基座模型 LaVIT 刷榜多模態任務

夕小瑤科技說 原創作者 | 智商掉了一地、Python你是否想過,有朝一日能夠僅輸入寥寥數語或圖片,就可以一鍵檢索最為匹配的短視頻內容。不是憑借視頻標簽、也...
閱讀原文

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

機器之心專欄機器之心編輯部電子游戲已經成為如今現實世界的模擬舞臺,展現出無限可能。以游戲《俠盜獵車手》(GTA)為例,在 GTA 的世界里,玩家可以以第一...
閱讀原文

大模型勇闖洛圣都,加封「GTA五星好市民」!南洋理工、清華等發布視覺可編程智能體Octopus:打游戲、做家務全能干

新智元報道編輯:LRS 好困【新智元導讀】讓視覺語言模型(VLM)在模擬的電子世界里游玩是什么體驗?讓Octopus根據智能體的觀測寫控制代碼,即可實現讓VLM做家...
閱讀原文

馬斯克最新芯片:腦機專用,讓失明人群“看見”

白交 發自 凹非寺量子位 | 公眾號 QbitAI親口承認!馬斯克Neuralink正在開發一款芯片。“幾年內”發布,用腦機接口解決失明那種。在一位網友的回復底下,馬斯克...
閱讀原文

GPT-4V 也會追劇、刷抖音、打游戲、玩手機?微軟 MM-VID 充分釋放 GPT-4V 潛力!

夕小瑤科技說 原創作者 | 付奶茶、ZenMooreGPT-4V 在多模態看圖能力上很強大,我們在往期的推文中也領略了它在看手相(?)、看胸片、看草圖做網頁等等上面的卓...
閱讀原文

OpenAI 將在首屆開發者大會上讓模型更便宜、更強大

點擊上方藍字關注我們圖|匡萃彪文|匡萃彪“ OpenAI在首次開發者大會上宣布了產品升級,使其AI模型更便宜、功能更強大。這些升級旨在鼓勵公司使用OpenAI的技...
閱讀原文

何愷明做科研也emo!最新QA完整版在此

西風 發自 凹非寺量子位 | 公眾號 QbitAIAI大牛何愷明的一句話火了,他說:科研中95%的時間是令人沮喪的。什么???就連何愷明都覺得科研很煎熬?沒錯,此話...
閱讀原文
1141516171820