標簽:圖像
GPT-4V“大翻車”!把海豹識別成狗!分不清炸雞和泰迪,葫蘆娃也數不明白…
夕小瑤科技說 原創作者 | 付奶茶、王二狗最近聽說,“遙遙領先”的GPT-4V翻大車了!竟然把海豹識別成狗!而且還分不清炸雞和泰迪! 下面是GPT-4V對狗子和海豹的...
真·大一統!AI2南郵校友等打造Unified-IO 2:首個視覺/語言/音頻/動作多模態模型
新智元報道編輯:Aeneas 好困 【新智元導讀】首個視覺、語言、音頻和動作多模態模型Unified-IO 2來了!它能夠完成多種多模態的任務,在超過30個基準測試中展...
復旦發布 FoodLMM,食材辨別/菜譜生成/營養分析樣樣行!
夕小瑤科技說 原創作者 | 智商掉了一地、Python想要準確分辨出泰餐里的玉米筍?想吃美食但又怕一不小心無法控制卡路里而吃胖?食材在手但不知道該怎么搭配能...
字節多模態大模型PixelLM:高效像素級推理,無需依賴SAM
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI多模態大模型爆發,準備好進入圖像編輯、自動駕駛和機器人技術等細粒度任務中實際應用了嗎? 目前大多數模型的能力還...
文生視頻平臺 Pika 1.0 圣誕炫技,網友使用測評:基本符合期望
作者 | 核子可樂、Tina 近日,文生視頻公司 Pika 推出 Pika1.0,能夠生成和編輯 3D 動畫、動漫、卡通和電影等各種風格的視頻,一經推出便在各大社交媒體上...
全球最強「開源版Gemini」誕生!全能多模態模型Emu2登熱榜,多項任務刷新SOTA
新智元報道編輯:桃子 好困 【新智元導讀】最強的全能多模態模型來了!就在近日,智源研究院重磅發布了開源界的「Gemini」——Emu2,一口氣刷新多項SOTA。過去...
微軟悄然發布AI機器人Copilot,挑戰ChatGPT Plus地位
點擊上方藍字關注我們“微軟最新推出的Copilot應用整合了GPT-4和DALL-E 3的語言與圖像生成能力,標志著其進一步在AI動力移動應用領域擴展。該免費應用在文本回...
一秒100張實時生成二次元老婆照!高吞吐低延遲低功耗|登頂GitHub熱榜、已開源
西風 發自 凹非寺量子位 | 公眾號 QbitAI單RTX4090,每秒生成100張圖! 一種專為實時交互式圖像生成而設計的一站式解決方案,登頂GitHub熱榜。 方案名為Strea...
英偉達官方盤點2023年10大研究,從CV到AI,從智能體到生成式AI
英偉達官方盤點2023年10大研究,從CV到AI,從智能體到生成式AI。英偉達不但現實世界中用GPU收割全世界,也在虛擬世界中用一項項匪夷所思的技術展開了一場革命...
一手測評丨Midjourney V6 上線,現在繪圖可以說人話了
省流:Midjourney 在2023年12月21日發布了 V6 版本,是 Midjourney 團隊從頭開始訓練的第三個模型。目前 V5.2 和 V6 之間暫無 benchmark 對比,因此本次大部...
單張4090,1秒100張二次元姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍
新智元報道編輯:桃子 【新智元導讀】二次元小姐姐全新生成模型來了,還是1秒100張那種。10毫秒生成一張圖像,1分鐘6000張圖像,這是什么概念? 下圖中,就可...
無限新衣服零元購,阿里Outfit Anyone實現真人百變換裝
機器之心專欄 機器之心編輯部【關注機器之心視頻號,第一時間看到有趣的AI內容】 不實際試穿,就能嘗試各種服飾,虛擬試衣技術讓「QQ秀」升級成了真人版,為...
NeurIPS23|視覺 「讀腦術」:從大腦活動中重建你眼中的世界
機器之心專欄 機器之心編輯部在這篇 NeurIPS23 論文中,來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視覺 「讀腦術」,能夠從人類的大腦...
英偉達官方盤點2023年10大研究!「神經朗琪羅」秒變逼真大衛,用AI生成3D虛擬世界
?新智元報道編輯:桃子 潤 【新智元導讀】英偉達官方盤點2023年10大研究,從CV到AI,從智能體到生成式AI。英偉達不但現實世界中用GPU收割全世界,也在虛擬世...
大模型被偷家!騰訊港中文新研究修正認知:CNN搞多模態不弱于Transfromer
騰訊&港中文團隊 投稿量子位 | 公眾號 QbitAI在Transformer占據多模態工具半壁江山的時代,大核CNN又“殺了回來”,成為了一匹新的黑馬。 騰訊AI實驗室與港...