標簽:圖像

蘋果多模態模型大升級!文本密集、多圖理解,全能小鋼炮

新智元報道編輯:alan 【新智元導讀】近日,一向畫風精致的「蘋果牌AI」,也推出了升級版的多模態大模型,從1B到30B參數,涵蓋密集和專家混合模型,密集文本...
閱讀原文

從圖像到視頻:淺談Video Diffusion Models背后的底層原理

01前言最近一段時間恰好在推進手上的一個做視頻生成相關的課??題,也是對視頻擴散模型(Video Diffusion Models)這一領域有了頗多認識。其中,視頻擴散模型...
閱讀原文

耗資數百萬,六年磨一劍!上交開源首創圖像合成神器libcom,下載量破萬

新智元報道編輯:編輯部 HYZ 【新智元導讀】研發6年,耗資數百萬,六屆學霸接力,上交牛力團隊首創的圖像合成工具箱libcom,論文、代碼、數據集全開源。團隊...
閱讀原文

六年、六屆學生接力,共鑄上交大圖像合成工具箱libcom

機器之心報道 機器之心編輯部arX?iv:2106.14490v5如果你對 arXiv 的版本號有所了解,你就知道這篇論文已經更新了 4 次,現在已經來到了第 5 個版本。實際上,...
閱讀原文

5.2k星!突破 OCR 困境的超級變革者來了;多語言醫療大模型開源,語料庫和基準數據集已提供下載

在當今數字化進程飛速發展的時代,OCR(光學字符識別)技術雖已普及,但仍存在諸多瓶頸。傳統 OCR 模型在面對復雜多變的情況時,識別準確率會大打折扣,且處...
閱讀原文

文生圖參數量升至240億!Playground v3發布:深度融合LLM,圖形設計能力超越人類

新智元報道編輯:LRS 【新智元導讀】Playground Research推出了新一代文本到圖像模型PGv3,具備240億參數量,采用深度融合的大型語言模型,實現了在圖形設計...
閱讀原文

最新AI生圖模型Flux1.1刷屏!添加單反相機文件名獲得超寫實圖像,網友:我分不清啊

夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI最新AI文生圖模型Flux1.1,一夜刷屏。 只需一個簡單技巧,就能去除圖中的“AI味”,無論人物還是風景都能達到照片...
閱讀原文

一鍵拯救廢片!3個在線教程,實現光線重塑、表情遷移、模糊圖像修復

作者:李寶珠 我們為大家整理了 3 款拯救廢片神器及其一鍵部署教程,快速 get 精致朋友圈!您的國慶假期余額已不足 2 天!旅游或是歸家探親的小伙伴是不是都...
閱讀原文

號稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態模型Molmo挑戰Scaling law

機器之心報道 編輯:佳琪、PandaMolmo,開源多模態模型正在發力!雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型...
閱讀原文

ECCV2024 Oral | 第一視角下的動作圖像生成,Meta等提出LEGO模型

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

Meta 首個多模態大模型一鍵啟動!首個多繡數據集上線,含超 30k 張圖片

小扎在 Meta Connect 2024 主題演講中宣布推出首個多模態大模型 Llama 3.2 vision!該模型有 11B 和 90B 兩個版本,成為首批支持多模態任務的 Llama 系列模型...
閱讀原文

中科院自動化所王金橋教授團隊發布!利用無掩碼擴散技術實現多功能時尚編輯 | 一作牛蘊方博士講座預告

時尚圖像編輯旨在根據給定的指令修改人物的外觀。現有的方法通常需要輔助工具,如分割器和關鍵點提取器,缺乏靈活且統一的框架。此外,這些方法在能夠處理的...
閱讀原文

Nature :人類大腦如何編碼和理解時間和經歷的流動

來源:歐米伽未來研究所 “歐米伽未來研究所”關注科技未來發展趨勢,研究人類向歐米伽點演化過程中面臨的重大機遇與挑戰。將不定期推薦和發布世界范圍重要科技...
閱讀原文

入選ECCV 2024!覆蓋5.4w+圖像,MIT提出醫學圖像分割通用模型ScribblePrompt,性能優于SAM

作者:哇塞 編輯:李姝,李寶珠 麻省理工學院計算機科學與人工智能實驗室團隊等,提出一種交互式生物醫學圖像分割通用模型 ScribblePrompt,支持不同注釋方式...
閱讀原文

Meta首款多模態Llama 3.2開源!1B羊駝寶寶,跑在手機上了

新智元報道編輯:桃子 好困 【新智元導讀】Meta首個理解圖文的多模態Llama 3.2來了!這次,除了11B和90B兩個基礎版本,Meta還推出了僅有1B和3B輕量級版本,適...
閱讀原文
13456748