標簽:圖像

AI 也會戴有色眼鏡?一文揭露圖像生成中的刻板印象

?夕小瑤科技說 原創作者|智商掉了一地、Python眾所周知,刻板印象具有高度主觀性,就好比給出關鍵詞“神探”,不同觀眾可能會聯想到截然不同的答案。 ▲圖1 神探...
閱讀原文

碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了

機器之心報道 編輯:Panda、蛋醬人類有兩只眼睛來估計視覺環境的深度信息,但機器人和 VR 頭社等設備卻往往沒有這樣的「配置」,往往只能靠單個攝像頭或單張...
閱讀原文

世界頂尖多模態大模型開源!又是零一萬物,又是李開復

允中 發自 凹非寺量子位 | 公眾號 QbitAI領跑中英文兩大權威榜單,李開復零一萬物交出多模態大模型答卷! 距離其首款開源大模型Yi-34B和Yi-6B的發布,僅間隔...
閱讀原文

零一萬物發布Yi-VL多模態語言模型并開源,測評僅次于GPT-4V

作者 | 褚杏娟 1 月 22 日,零一萬物發布 Yi Vision Language(Yi-VL)多模態語言大模型,并正式面向全球開源。Yi-VL 模型基于 Yi 語言模型開發,包括 Yi-VL-...
閱讀原文

零一萬物Yi-VL多模態大模型開源,MMMU、CMMMU兩大權威榜單領先

機器之心發布 機器之心編輯部1 月 22 日,零一萬物 Yi 系列模型家族迎來新成員:Yi Vision Language(Yi-VL)多模態語言大模型正式面向全球開源。據悉,Yi-VL...
閱讀原文

一張照片,為深度學習巨頭們定制人像圖片

機器之心專欄 作者:InstantX 團隊主題驅動的文本到圖像生成,通常需要在多張包含該主題(如人物、風格)的數據集上進行訓練,這類方法中的代表工作包括 Drea...
閱讀原文

GPT-4V慘敗!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類

新智元報道編輯:桃子 【新智元導讀】多模態大模型GPT-4V也會「有眼無珠」。UC San Diego紐約大學研究人員提出全新V*視覺搜索算法逆轉LLM弱視覺宿命。Sam Alt...
閱讀原文

Midjourney V6超進化,大神網友深度評測來了!畫質逼真到可怕,人像圖片令人驚呆

新智元報道編輯:Aeneas 【新智元導讀】Midjourney大神的超深度測評來了!V6比起V5.2究竟有哪些改進?來感受一下吧。最近,國外的一位名叫Andrei Kovalev的大...
閱讀原文

視覺Mamba來了:速度提升2.8倍,內存能省87%

機器之心報道 編輯:陳萍、澤南Vision Mamba 不是個普通模型。號稱「全面包圍 Transformer」的 Mamba,推出不到兩個月就有了高性能的視覺版。 本周四,來自華...
閱讀原文

多模態訓練,怎么對齊不同模態?

直播預告 | 1月22日晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環端到...
閱讀原文

20%的楊冪+80%的泰勒長什么樣?小紅書風格化AI來了,可兼容SD和ControlNet

豐色 發自 凹非寺量子位 | 公眾號 QbitAI不得不說,現在拍寫真真是“簡單到放肆”了。 真人不用出鏡,不用費心凹姿勢、搞發型,只需一張本人圖像,等待幾秒鐘,...
閱讀原文

AI生圖界扛把子被曝剽竊!復制粘貼好萊塢大片,Midjourney、OpenAI都中槍了

一個單詞,讓AI生成堪比電影截圖的鋼鐵俠? 編譯|香草 編輯|李水青 以下這組圖,你能分辨出哪些是電影截圖,哪些是AI生成的圖像嗎? ▲Midjourney生成圖像與原...
閱讀原文

「文生圖」再升級!學習個性化參照,無限生成多樣圖片,輕松設計玩具建筑

新智元報道編輯:LRS 【新智元導讀】將圖片集反演到語義空間的分布,生成多樣個性化圖片或3D渲染,支持靈活文本編輯、多樣性控制、概念混合等。最近,來自南...
閱讀原文

OpenAI將推出新的AI工具,旨在防止美國大選期間虛假信息傳播

夕小瑤科技說 原創作者 | 松果、王二狗2024 年是美國總統的大選年,然而每到大選之時,虛假信息泛濫等問題一直都很嚴重。美國一項民意調查發現,近60%的成年...
閱讀原文

微軟Copilot Pro來了:個人用戶也能在Word里用GPT-4,20美元/月

魚羊 發自 凹非寺量子位 | 公眾號 QbitAI面向個人用戶的微軟Copilot會員版來了。 一個月多交20刀(約合人民幣142元),Microsoft 365個人版/家庭版用戶就能在...
閱讀原文
1293031323348