標簽:物體
上交發布MG-LLaVA,基于多粒度指令調整,橫掃視覺大模型榜單
夕小瑤科技說 原創作者 |Richard近年來多模態大語言模型(MLLMs)在視覺理解任務中取得了長足進步。然而,大多數模型仍局限于處理低分辨率圖像,這限制了它們在...
靠Scaling Laws煉出4D版視頻生成模型,多倫多大學北交大等攜手開源81K高質量數據集
Diffusion4D團隊 投稿量子位 | 公眾號 QbitAI只需幾分鐘、一張圖或一句話,就能完成時空一致的4D內容生成。 注意看,這些生成的3D物體,是帶有動作變化的那種...
斯坦福博士助力,一年打造7億融資獨角獸!銀河通用機器人創具身智能賽道天使輪融資紀錄
新智元報道編輯:編輯部 【新智元導讀】過去一年,美元在華投資大幅縮水,資本市場呈現「寒冬」態勢。然而,在這樣的背景下,這家中國公司成立僅一年卻創紀錄...
給NeRF開透視眼!稀疏視角下用X光進行三維重建,9類算法工具包全開源 | CVPR 2024
新智元報道編輯:LRST 【新智元導讀】本文提出了SAX-NeRF框架,一種專為稀疏視角下X光三維重建設計的新型NeRF方法,通過Lineformer Transformer和MLG采樣策略...
北大快手攻克復雜視頻生成難題!新框架輕松組合各種細節,代碼將開源
楊靈 投稿自 凹非寺量子位 | 公眾號 QbitAI如何生成高難度、指令超復雜的視頻呢? 北大與快手AI有解了,他們提出新框架VideoTetris,就像拼俄羅斯方塊一樣,...
3D資產生成領域福音:自動化所、北郵團隊聯合打造材質生成新范式
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
顛覆傳統操控!解密美國東北大學機器蛇如何在復雜地形中靈活表現
大數據文摘受權轉載自機器大講堂 你沒看錯,這個不斷翻滾上坡的條狀物是一個蛇形機器人。 在人們的印象中,大多數蛇形機器人似乎無法像許多輪式和腿式機...
銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024
沒有做好小模型的公司、沒有能讓動作小模型泛化的公司不可能讓大模型泛化。 2024中國生成式AI大會于4月18-19日在北京舉行,在大會第一天的主會場開幕式上,北...
港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體
允中 發自 凹非寺量子位 | 公眾號 QbitAI當前,多模態大模型(MLLM)在多項視覺任務上展現出了強大的認知理解能力。 然而大部分多模態大模型局限于單向的圖像...
李飛飛「空間智能」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
讓機器準確「看懂」手物交互動作,清華大學等提出GeneOH Diffusion方法
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:給視頻生成器裝個物理引擎
新智元報道編輯:LRS 【新智元導讀】PhysDreamer利用材質點法(MPM)對物體的各個物理屬性進行估計,實現了逼真的交互式響應結果,在視頻生成領域向更真實的...
看透物體的3D表示和生成模型:NUS團隊提出X-Ray
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
華為P70閃拍功能意外爆火,CTO親自下場解讀技術原理
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI一段博主拍攝的視頻,讓華為P70的抓拍功能意外火了…… 注意看,這里有一個高速運轉的機械,是不是讓你看得已經眼花...
無任務學習及在機器人任務和規劃中的應用
大數據文摘授權轉載自中國人工智能學會 作者:張憲琦,范曉鵬摘 要: 本文提出了無任務學習的方法,闡述了其與現有方法(包括自監督學習、遷移學習、模仿學習...