標簽：圖像

蘋果多模態模型大升級！文本密集、多圖理解，全能小鋼炮

新智元報道編輯：alan 【新智元導讀】近日，一向畫風精致的「蘋果牌AI」，也推出了升級版的多模態大模型，從1B到30B參數，涵蓋密集和專家混合模型，密集文本...

閱讀原文

AIGC動態

1年前 (2024)

從圖像到視頻：淺談Video Diffusion Models背后的底層原理

01前言最近一段時間恰好在推進手上的一個做視頻生成相關的課??題，也是對視頻擴散模型（Video Diffusion Models）這一領域有了頗多認識。其中，視頻擴散模型...

閱讀原文

AIGC動態

1年前 (2024)

耗資數百萬，六年磨一劍！上交開源首創圖像合成神器libcom，下載量破萬

新智元報道編輯：編輯部 HYZ 【新智元導讀】研發6年，耗資數百萬，六屆學霸接力，上交牛力團隊首創的圖像合成工具箱libcom，論文、代碼、數據集全開源。團隊...

閱讀原文

AIGC動態

1年前 (2024)

六年、六屆學生接力，共鑄上交大圖像合成工具箱libcom

機器之心報道機器之心編輯部arX?iv:2106.14490v5如果你對 arXiv 的版本號有所了解，你就知道這篇論文已經更新了 4 次，現在已經來到了第 5 個版本。實際上，...

閱讀原文

AIGC動態

1年前 (2024)

5.2k星！突破 OCR 困境的超級變革者來了；多語言醫療大模型開源，語料庫和基準數據集已提供下載

在當今數字化進程飛速發展的時代，OCR（光學字符識別）技術雖已普及，但仍存在諸多瓶頸。傳統 OCR 模型在面對復雜多變的情況時，識別準確率會大打折扣，且處...

閱讀原文

AIGC動態

1年前 (2024)

文生圖參數量升至240億！Playground v3發布：深度融合LLM，圖形設計能力超越人類

新智元報道編輯：LRS 【新智元導讀】Playground Research推出了新一代文本到圖像模型PGv3，具備240億參數量，采用深度融合的大型語言模型，實現了在圖形設計...

閱讀原文

AIGC動態

1年前 (2024)

最新AI生圖模型Flux1.1刷屏！添加單反相機文件名獲得超寫實圖像，網友：我分不清啊

夢晨西風發自凹非寺量子位 | 公眾號 QbitAI最新AI文生圖模型Flux1.1，一夜刷屏。只需一個簡單技巧，就能去除圖中的“AI味”，無論人物還是風景都能達到照片...

閱讀原文

AIGC動態

1年前 (2024)

一鍵拯救廢片！3個在線教程，實現光線重塑、表情遷移、模糊圖像修復

作者：李寶珠我們為大家整理了 3 款拯救廢片神器及其一鍵部署教程，快速 get 精致朋友圈！您的國慶假期余額已不足 2 天！旅游或是歸家探親的小伙伴是不是都...

閱讀原文

AIGC動態

1年前 (2024)

號稱擊敗Claude 3.5 Sonnet，媲美GPT-4o，開源多模態模型Molmo挑戰Scaling law

機器之心報道編輯：佳琪、PandaMolmo，開源多模態模型正在發力！雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型...

閱讀原文

AIGC動態

1年前 (2024)

ECCV2024 Oral | 第一視角下的動作圖像生成，Meta等提出LEGO模型

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術...

閱讀原文

AIGC動態

1年前 (2024)

Meta 首個多模態大模型一鍵啟動！首個多繡數據集上線，含超 30k 張圖片

小扎在 Meta Connect 2024 主題演講中宣布推出首個多模態大模型 Llama 3.2 vision！該模型有 11B 和 90B 兩個版本，成為首批支持多模態任務的 Llama 系列模型...

閱讀原文

AIGC動態

1年前 (2024)

中科院自動化所王金橋教授團隊發布！利用無掩碼擴散技術實現多功能時尚編輯 | 一作牛蘊方博士講座預告

時尚圖像編輯旨在根據給定的指令修改人物的外觀。現有的方法通常需要輔助工具，如分割器和關鍵點提取器，缺乏靈活且統一的框架。此外，這些方法在能夠處理的...

閱讀原文

AIGC動態

1年前 (2024)

Nature ：人類大腦如何編碼和理解時間和經歷的流動

來源：歐米伽未來研究所 “歐米伽未來研究所”關注科技未來發展趨勢，研究人類向歐米伽點演化過程中面臨的重大機遇與挑戰。將不定期推薦和發布世界范圍重要科技...

閱讀原文

AIGC動態

1年前 (2024)

入選ECCV 2024！覆蓋5.4w+圖像，MIT提出醫學圖像分割通用模型ScribblePrompt，性能優于SAM

作者：哇塞編輯：李姝，李寶珠麻省理工學院計算機科學與人工智能實驗室團隊等，提出一種交互式生物醫學圖像分割通用模型 ScribblePrompt，支持不同注釋方式...

閱讀原文

AIGC動態

1年前 (2024)

Meta首款多模態Llama 3.2開源！1B羊駝寶寶，跑在手機上了

新智元報道編輯：桃子好困【新智元導讀】Meta首個理解圖文的多模態Llama 3.2來了！這次，除了11B和90B兩個基礎版本，Meta還推出了僅有1B和3B輕量級版本，適...

閱讀原文

AIGC動態

1年前 (2024)

1…3 456 7…48