標簽:圖像
NeurIPS 2023 Spotlight|高質量多視角圖像生成,完美復刻場景材質!SFU等提出MVDiffusion
新智元報道編輯:LRS 好困【新智元導讀】不怕多視角圖像變化大,MVDiffusion整合圖片全局意識,內容一致性更高!逼真的圖像生成在虛擬現實、增強現實、視頻游...
試過GPT-4V后,微軟寫了個166頁的測評報告,業內人士:高級用戶必讀
機器之心報道編輯:陳萍、張倩這篇由微軟撰寫的報告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。一周之前,ChatGPT迎來,不管是 GPT...
真實性驚人,谷歌、康奈爾提出真實的圖像補全技術RealFill
機器之心報道編輯:XW得到一張好看的照片越來越容易了。假期出游,肯定少不了拍照留念。不過,大部分在景區拍攝的照片或多或少都有些遺憾,背景里不是多了些...
Midjourney V6來襲!性能對標DALL·E 3,爭奪地表最強作圖AI稱號
新智元報道編輯:Lumina【新智元導讀】面對OpenAI來勢洶洶的DALL·E 3,Midjourney也爆料出了自己下一代更強的版本Midjourney V6,不僅性能對標DALL·E 3,還將...
西交、清華等發布多模態大模型,有望成為「DALL·E 4」技術路線?和AI一起「白日作夢」
新智元報道編輯:LRS【新智元導讀】DALL·E 3讓我們看到了生成+理解的大語言模型的魔力。就在其發布的同一天,國內的一個新工作引起了社區的關注:DreamLLM。D...
多模態版Llama2上線,Meta發布AnyMAL
機器之心報道編輯:大盤雞、澤南在多個基準測試中均刷新了業界最好的 zero-shot 性能。一個統一的模型,可以對不同模態輸入內容(文本、圖像、視頻、音頻、IM...
微軟最新發布:從專家到通用AI代理,一文讀懂「多模態基礎模型」
視覺是人類和其他生物感知世界的主要渠道之一。人工智能(AI)的一個核心愿景是開發 AI 代理,模仿感知、生成視覺信號,與視覺世界進行互動。近日,微軟研究...
對標DALL·E 3!Meta最強文生圖Emu技術報告出爐
新智元報道編輯:Lumina【新智元導讀】可以說,Meta剛剛發布的Emu,在性能上毫不遜色于DALL·E 3!而Emu取得優異性能背后的原因是「質量調整」。前幾天,OpenA...
ChatGPT 終于“聯網”了!不再局限于舊數據,新功能即將對所有人開放
整理|冬梅、核子可樂 當地時間周三(9 月 27 日),OpenAI 在 X(前身為推特)上宣布,其聊天機器人產品 ChatGPT 可以通過微軟的必應搜索引擎進行網絡搜索,...
這套亞運郵票居然用上了AIGC,阿里云和中國郵政讓創作這件事變簡單了
機器之心報道作者:陳萍郵政之父羅蘭?希爾爵士的便士郵政法,引發了一場關于世界郵政的重要革新,同時也促進了世界上第一枚郵票「黑便士」的問世,這一年是 ...
Meta版ChatGPT來了:Llama 2加持,接入必應搜索,小扎現場演示
機器之心報道機器之心編輯部「殺死」OpenAI,小扎這波穩了嗎?今天凌晨,一年一度的 Meta Connect 大會上發布了一系列以 AI 為重點的公告。不只有最新的 MR ...
對 GPT-4V(ision) 的第一印象
圖文|James Gallagher, Piotr Skalski翻譯|匡萃彪在這個指南中,我們將分享我們對GPT-4V圖像輸入功能的第一印象。我們將進行一系列實驗,測試GPT-4V的功能...
文檔字越多,模型越興奮!KOSMOS-2.5:閱讀「文本密集圖像」的多模態大語言模型
新智元報道編輯:LRS 好困【新智元導讀】文字也是一種視覺信息,多模態大語言模型KOSMOS-2.5不光能讀懂論文,還能輸出markdown格式!當前一個顯著的趨勢是致...
揭秘OpenAI的震撼之舉:GPT-4V官方系統卡,你準備好被驚艷了嗎?
夕小瑤科技說 分享來源 | Web3天空之城OpenAI靜悄悄的拋出了個重磅炸彈:多模態GPT-4V(Vision)發布!GPT-4V允許用戶輸入圖像并結合文本prompt進行輸出。估...
ChatGPT能語音和看圖了!五種音色選項,背后模型細節公開
接下來兩周內向Plus和企業版用戶推出。編譯|ZeR0編輯|漠影ChatGPT又升級了!智東西9月26日報道,OpenAI昨晚發布公告,宣布ChatGPT再度重磅升級,推出全新的語...