標簽：分辨率

輕松拿捏4K高清圖像理解！這個多模態大模型自動分析網頁海報內容，打工人簡直不要太方便

陳林投稿自凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型，對于打工人來說簡直不要太方便。上海AI Lab，香港中文...

閱讀原文

AIGC動態

2年前 (2024)

生成擴散模型漫談：信噪比與大圖生成

導讀本文作者為蘇劍林，來自月之暗面。這篇文章介紹了 Simple Diffusion，這是一篇探索如何直接在 Pixel 空間中端到端地訓練圖像擴散模型的工作，利用了信噪...

閱讀原文

AIGC動態

2年前 (2024)

索尼 PS5 Pro 或年底發布，開發者已收到適配通知

PS5 PRO 即將發布? 距離索尼發布 PS5 已經過去三年多了，其全球銷量也已經達到了驚人的四千多萬臺。現在，它的升級款有新消息了。有爆料稱今年 11 月份，會...

閱讀原文

AIGC動態

2年前 (2024)

北大字節開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token

魚羊發自凹非寺量子位 | 公眾號 QbitAI北大和字節聯手搞了個大的：提出圖像生成新范式，從預測下一個token變成預測下一級分辨率，效果超越Sora核心組件Dif...

閱讀原文

AIGC動態

2年前 (2024)

無需訓練，這個新方法實現了生成圖像尺寸、分辨率

機器之心專欄機器之心編輯部近日，來自香港中文大學 - 商湯科技聯合實驗室等機構的研究者們提出了FouriScale，該方法在利用預訓練擴散模型生成高分辨率圖像...

閱讀原文

AIGC動態

2年前 (2024)

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD

機器之心專欄機器之心編輯部GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、交互在內的多個領域都展現了出色的能力，成為如今最領...

閱讀原文

AIGC動態

2年前 (2024)

通用文檔理解新SOTA，多模態大模型TextMonkey來了

機器之心專欄機器之心編輯部最近，華中科技大學和金山的研究人員在多模態大模型 Monkey [1]（Li et al., CVPR2024）工作的基礎上提出 TextMonkey。在多個場...

閱讀原文

AIGC動態

2年前 (2024)

北大發起復現Sora，框架已搭！袁粒田永鴻領銜，AnimateDiff大神響應

豐色發自凹非寺量子位 | 公眾號 QbitAI重磅：北大團隊發起了一項Sora復現計劃——Open Sora。框架、實現細節已出：初始團隊一共13人：帶隊的是北大信息工...

閱讀原文

AIGC動態

2年前 (2024)

一句話讓姐為我換了N套衣服，谷歌卷出視頻生成新高度，網友：競賽加碼

魚羊發自凹非寺量子位 | 公眾號 QbitAI谷歌一出手，又把AI視頻生成卷上了新高度。一句話生成視頻，現在在名為Lumiere的AI操刀下，可以是醬嬸的： △“陽光明...

閱讀原文

AIGC動態

2年前 (2024)

華為盤古畫畫3.0：業界最大的中文文生圖模型，效果YYDS！

直播預告 | 1月17日晚7點，「多模態大模型線上閉門會」正式開講！阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品，攜手劉兆洋、李彥瑋、文束三位青年學者...

閱讀原文

AIGC動態

2年前 (2024)

清華大學與智譜 AI 聯合推出 CogAgent：基于多模態大模型的 GUI Agent，具備視覺問答、視覺定位等能力

作者 | 凌敏近日，清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent，CogAgent 是一個通用的視覺理解大模型，具備視覺問答、視覺定位（Ground...

閱讀原文

AIGC動態

2年前 (2024)

突破分辨率極限，字節聯合中科大提出多模態文檔大模型

克雷西發自凹非寺量子位 | 公眾號 QbitAI現在連文檔都有大模型了，還是高分辨率、多模態的那種！不僅能準確識別出圖像里的信息，還能結合用戶需求調用自己...

閱讀原文

AIGC動態

2年前 (2023)

我的眼睛就是尺！80億參數OtterHD帶你「清明上河圖」數駱駝！南洋理工華人團隊打造

新智元報道編輯：好困【新智元導讀】最近，由南洋理工華人團隊新提出的80億參數多模態大模型OtterHD，不僅可以搞定讓GPT-4V都發愁的難題，甚至還可以數出來《...

閱讀原文

AIGC動態

2年前 (2023)

蘋果文生圖大模型亮相：套娃式擴散，支持1024×1024分辨率

機器之心報道編輯：杜偉、小舟習慣了 Stable Diffusion，如今終于又迎來一個俄羅斯套娃式（Matryoshka）Diffusion 模型，還是蘋果做的。在生成式 AI 時代，擴...

閱讀原文

AIGC動態

2年前 (2023)

蘋果“套娃”式擴散模型，訓練步數減少七成！

克雷西發自凹非寺量子位 | 公眾號 QbitAI蘋果的一項最新研究，大幅提高了擴散模型在高分辨率圖像上性能。利用這種方法，同樣分辨率的圖像，訓練步數減少了...

閱讀原文

AIGC動態

2年前 (2023)