標簽:視覺
00后CEO楊豐瑜:耶魯博士回國創業,五個月造出首款「可量產」人形機器人|AI Pioneer
人類正在迎來人工智能領域的爆炸式更新,技術向未知拓展的每一步,幾乎都引起驚人的關注度。 在人工智能邊界擴張的過程中,重要賽道的技術路線創新與分歧并存...
Nature | 揭示大腦如何通過視覺和信號追蹤目標
編輯 | Coral 排版| Asher 在神經科學領域中,“對齊”是指大腦中的神經元如何協調和匹配不同類型的信息,使我們的感覺和動作能夠順利結合。簡單來說,就是大腦...
Diffusion 反饋強勢助力 CLIP 秒變火眼金睛:北京智源研究院、中科院自動化所聯合推出 DIVA
本文分享論文Diffusion Feedback Helps CLIP See Better,專注于通過自監督學習范式解決CLIP無法區分細粒度視覺細節的問題。 作者:王文軒(中科院自動化所-...
學發布百萬規模文本生成視頻數據集OpenVid-1M
夕小瑤科技說 原創作者 | Zicy“巧婦難為無米之炊”,文生視頻作為一個在AI中較為年輕的研究方向,由許多至關重要的問題還尚未解決,其中之一就是缺乏大規模高...
4 個月創立一家 AI 獨角獸公司,這位華裔創始人到底是誰?
點擊上方藍字關注我們斯坦福大學人工智能領軍人物李飛飛在短短四個月內悄然打造了一家估值十億美元的初創企業——World Labs,加入到科技界將人工智能技術商業...
VLM集體「失明」?視力測試慘敗,GPT-4o、Claude 3.5全都不及格
新智元報道編輯:編輯部 【新智元導讀】視覺大語言模型在最基礎的視覺任務上集體「翻車」,即便是簡單的圖形識別都能難倒一片,或許這些最先進的VLM還沒有發...
拋棄視覺編碼器,這個「原生版」多模態大模型也能媲美主流方法
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
還不如人類五歲小孩,難度為零的視覺測試,GPT-4o、Claude 3.5 Sonnet卻挑戰失敗了
大數據文摘授權轉載自學術頭條 撰文:馬雪薇 GPT-4o、Claude 3.5 Sonnet 等具有視覺能力的大語言模型(LLM),是否能像人類一樣感知圖像?最新研究表明,在一...
基于LoRA微調多模態大模型一文解析
7月16日19點,「智猩猩AI新青年講座」第244講將開講。上海交通大學和寧波東方理工大學聯合培養博士生徐良將主要講解通用的3D人體動作生成框架ActFormer和人體...
多模態模型(VLM)部署方法拋磚引玉
7月11日19點,「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環規劃智能體PlanAgent,由理想汽車實習研究員、中國科學院自...
上交發布MG-LLaVA,基于多粒度指令調整,橫掃視覺大模型榜單
夕小瑤科技說 原創作者 |Richard近年來多模態大語言模型(MLLMs)在視覺理解任務中取得了長足進步。然而,大多數模型仍局限于處理低分辨率圖像,這限制了它們在...
DeepMind新方法:訓練時間減少13倍,算力降低90%
一水 發自 凹非寺量子位 | 公眾號 QbitAI大幅節省算力資源,又又又有新解了?。?DeepMind團隊提出了一種新的數據篩選方法JEST—— 將AI訓練時間減少13倍,并將...
無人車團隊跨維進軍好萊塢!推出電影級視覺AI特效,“新時代皮克斯”
一水 發自 凹非寺量子位 | 公眾號 QbitAI好萊塢級視覺AI橫空出世!一個demo已令網友瘋狂~ 來,我們直接看視頻: 以上來自Odyssey,能夠打造好萊塢級山脈、平...
自動駕駛團隊進軍好萊塢?打造電影級Sora,Odyssey開啟「荷馬史詩」新篇章
新智元報道編輯:耳朵 【新智元導讀】今日,Odyssey視覺AI發布預告,這款獲得GV 900萬美元種子資金的創新技術,旨在用AI技術講好電影故事。具備強大的視覺內...
NVIDIA Isaac 加速機器人3D視覺感知與機械臂軌跡規劃【36頁PPT&回放】
導讀7月2日,由智猩猩聯合NVIDIA策劃推出的「NVIDIA 機器人技術公開課」順利完結。NVIDIA 解決方案架構總監舒家明以《NVIDIA Isaac 加速機器人3D視覺感知與機...