標簽:分辨率

輕松拿捏4K高清圖像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便

陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型,對于打工人來說簡直不要太方便。 上海AI Lab,香港中文...
閱讀原文

生成擴散模型漫談:信噪比與大圖生成

導讀本文作者為蘇劍林,來自月之暗面。這篇文章介紹了 Simple Diffusion,這是一篇探索如何直接在 Pixel 空間中端到端地訓練圖像擴散模型的工作,利用了信噪...
閱讀原文

索尼 PS5 Pro 或年底發布,開發者已收到適配通知

PS5 PRO 即將發布? 距離索尼發布 PS5 已經過去三年多了,其全球銷量也已經達到了驚人的四千多萬臺。 現在,它的升級款有新消息了。有爆料稱今年 11 月份,會...
閱讀原文

北大字節開辟圖像生成新范式!超越Sora核心組件DiT,不再預測下一個token

魚羊 發自 凹非寺量子位 | 公眾號 QbitAI北大和字節聯手搞了個大的: 提出圖像生成新范式,從預測下一個token變成預測下一級分辨率,效果超越Sora核心組件Dif...
閱讀原文

無需訓練,這個新方法實現了生成圖像尺寸、分辨率

機器之心專欄 機器之心編輯部近日,來自香港中文大學 - 商湯科技聯合實驗室等機構的研究者們提出了FouriScale,該方法在利用預訓練擴散模型生成高分辨率圖像...
閱讀原文

揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯合NUS提出LLaVA-UHD

機器之心專欄 機器之心編輯部GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、交互在內的多個領域都展現了出色的能力,成為如今最領...
閱讀原文

通用文檔理解新SOTA,多模態大模型TextMonkey來了

機器之心專欄 機器之心編輯部最近,華中科技大學和金山的研究人員在多模態大模型 Monkey [1](Li et al., CVPR2024)工作的基礎上提出 TextMonkey。在多個場...
閱讀原文

北大發起復現Sora,框架已搭!袁粒田永鴻領銜,AnimateDiff大神響應

豐色 發自 凹非寺量子位 | 公眾號 QbitAI重磅: 北大團隊發起了一項Sora復現計劃——Open Sora。 框架、實現細節已出: 初始團隊一共13人: 帶隊的是北大信息工...
閱讀原文

一句話讓姐為我換了N套衣服,谷歌卷出視頻生成新高度,網友:競賽加碼

魚羊 發自 凹非寺量子位 | 公眾號 QbitAI谷歌一出手,又把AI視頻生成卷上了新高度。 一句話生成視頻,現在在名為Lumiere的AI操刀下,可以是醬嬸的: △“陽光明...
閱讀原文

華為盤古畫畫3.0:業界最大的中文文生圖模型,效果YYDS!

直播預告 | 1月17日晚7點,「多模態大模型線上閉門會」正式開講!阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品,攜手劉兆洋、李彥瑋、文束三位青年學者...
閱讀原文

清華大學與智譜 AI 聯合推出 CogAgent:基于多模態大模型的 GUI Agent,具備視覺問答、視覺定位等能力

作者 | 凌敏 近日,清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Ground...
閱讀原文

突破分辨率極限,字節聯合中科大提出多模態文檔大模型

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI現在連文檔都有大模型了,還是高分辨率、多模態的那種!不僅能準確識別出圖像里的信息,還能結合用戶需求調用自己...
閱讀原文

我的眼睛就是尺!80億參數OtterHD帶你「清明上河圖」數駱駝!南洋理工華人團隊打造

新智元報道編輯:好困【新智元導讀】最近,由南洋理工華人團隊新提出的80億參數多模態大模型OtterHD,不僅可以搞定讓GPT-4V都發愁的難題,甚至還可以數出來《...
閱讀原文

蘋果文生圖大模型亮相:套娃式擴散,支持1024×1024分辨率

機器之心報道編輯:杜偉、小舟習慣了 Stable Diffusion,如今終于又迎來一個俄羅斯套娃式(Matryoshka)Diffusion 模型,還是蘋果做的。在生成式 AI 時代,擴...
閱讀原文

蘋果“套娃”式擴散模型,訓練步數減少七成!

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI蘋果的一項最新研究,大幅提高了擴散模型在高分辨率圖像上性能。利用這種方法,同樣分辨率的圖像,訓練步數減少了...
閱讀原文
12