標(biāo)簽:圖像
蘋果多模態(tài)模型大升級!文本密集、多圖理解,全能小鋼炮
新智元報(bào)道編輯:alan 【新智元導(dǎo)讀】近日,一向畫風(fēng)精致的「蘋果牌AI」,也推出了升級版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專家混合模型,密集文本...
從圖像到視頻:淺談Video Diffusion Models背后的底層原理
01前言最近一段時間恰好在推進(jìn)手上的一個做視頻生成相關(guān)的課??題,也是對視頻擴(kuò)散模型(Video Diffusion Models)這一領(lǐng)域有了頗多認(rèn)識。其中,視頻擴(kuò)散模型...
耗資數(shù)百萬,六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬
新智元報(bào)道編輯:編輯部 HYZ 【新智元導(dǎo)讀】研發(fā)6年,耗資數(shù)百萬,六屆學(xué)霸接力,上交牛力團(tuán)隊(duì)首創(chuàng)的圖像合成工具箱libcom,論文、代碼、數(shù)據(jù)集全開源。團(tuán)隊(duì)...
六年、六屆學(xué)生接力,共鑄上交大圖像合成工具箱libcom
機(jī)器之心報(bào)道 機(jī)器之心編輯部arX?iv:2106.14490v5如果你對 arXiv 的版本號有所了解,你就知道這篇論文已經(jīng)更新了 4 次,現(xiàn)在已經(jīng)來到了第 5 個版本。實(shí)際上,...
5.2k星!突破 OCR 困境的超級變革者來了;多語言醫(yī)療大模型開源,語料庫和基準(zhǔn)數(shù)據(jù)集已提供下載
在當(dāng)今數(shù)字化進(jìn)程飛速發(fā)展的時代,OCR(光學(xué)字符識別)技術(shù)雖已普及,但仍存在諸多瓶頸。傳統(tǒng) OCR 模型在面對復(fù)雜多變的情況時,識別準(zhǔn)確率會大打折扣,且處...
文生圖參數(shù)量升至240億!Playground v3發(fā)布:深度融合LLM,圖形設(shè)計(jì)能力超越人類
新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】Playground Research推出了新一代文本到圖像模型PGv3,具備240億參數(shù)量,采用深度融合的大型語言模型,實(shí)現(xiàn)了在圖形設(shè)計(jì)...
最新AI生圖模型Flux1.1刷屏!添加單反相機(jī)文件名獲得超寫實(shí)圖像,網(wǎng)友:我分不清啊
夢晨 西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI最新AI文生圖模型Flux1.1,一夜刷屏。 只需一個簡單技巧,就能去除圖中的“AI味”,無論人物還是風(fēng)景都能達(dá)到照片...
一鍵拯救廢片!3個在線教程,實(shí)現(xiàn)光線重塑、表情遷移、模糊圖像修復(fù)
作者:李寶珠 我們?yōu)榇蠹艺砹?3 款拯救廢片神器及其一鍵部署教程,快速 get 精致朋友圈!您的國慶假期余額已不足 2 天!旅游或是歸家探親的小伙伴是不是都...
號稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態(tài)模型Molmo挑戰(zhàn)Scaling law
機(jī)器之心報(bào)道 編輯:佳琪、PandaMolmo,開源多模態(tài)模型正在發(fā)力!雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型...
ECCV2024 Oral | 第一視角下的動作圖像生成,Meta等提出LEGO模型
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
Meta 首個多模態(tài)大模型一鍵啟動!首個多繡數(shù)據(jù)集上線,含超 30k 張圖片
小扎在 Meta Connect 2024 主題演講中宣布推出首個多模態(tài)大模型 Llama 3.2 vision!該模型有 11B 和 90B 兩個版本,成為首批支持多模態(tài)任務(wù)的 Llama 系列模型...
中科院自動化所王金橋教授團(tuán)隊(duì)發(fā)布!利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時尚編輯 | 一作牛蘊(yùn)方博士講座預(yù)告
時尚圖像編輯旨在根據(jù)給定的指令修改人物的外觀。現(xiàn)有的方法通常需要輔助工具,如分割器和關(guān)鍵點(diǎn)提取器,缺乏靈活且統(tǒng)一的框架。此外,這些方法在能夠處理的...
Nature :人類大腦如何編碼和理解時間和經(jīng)歷的流動
來源:歐米伽未來研究所 “歐米伽未來研究所”關(guān)注科技未來發(fā)展趨勢,研究人類向歐米伽點(diǎn)演化過程中面臨的重大機(jī)遇與挑戰(zhàn)。將不定期推薦和發(fā)布世界范圍重要科技...
入選ECCV 2024!覆蓋5.4w+圖像,MIT提出醫(yī)學(xué)圖像分割通用模型ScribblePrompt,性能優(yōu)于SAM
作者:哇塞 編輯:李姝,李寶珠 麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室團(tuán)隊(duì)等,提出一種交互式生物醫(yī)學(xué)圖像分割通用模型 ScribblePrompt,支持不同注釋方式...
Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了
新智元報(bào)道編輯:桃子 好困 【新智元導(dǎo)讀】Meta首個理解圖文的多模態(tài)Llama 3.2來了!這次,除了11B和90B兩個基礎(chǔ)版本,Meta還推出了僅有1B和3B輕量級版本,適...