標簽:圖像
浙江大學發布全能多模態大模型OmniBind,刷榜13大benchmark
夕小瑤科技說 原創作者 | Richard在人工智能快速發展的今天,多模態大模型成為了研究的熱點。近日,浙江大學的研究團隊在這一領域取得了重大突破,發布了名為...
馬斯克化身「超市大盜」?AI監控畫面流出驚呆網友,Grok 2惡搞無限腦洞
新智元報道編輯:編輯部 【新智元導讀】驚爆!馬斯克在某超市做「小偷」,當場被攝像頭拍下,是真還是假,沒人說得清。Grok被發現沒有護欄后,網友們直接沖爆...
玩瘋了,NSFW、毫無底線,FLUX 成為圖片生成新王者
昨天馬斯克的 Grok-2 發布,加入了 FLUX 模型提供的文生圖能力。一夜之間,FLUX 毫無底線的圖片血洗 X(推特)。 自從 Google 把美國開國總統和印第安人都畫...
在線教程 | 僅需 1 張圖片即可生成完整繪畫過程,Lvmin Zhang 新作 Paints-Undo 上線!
作者:小貝 編輯:十九 ControlNet 作者張呂敏 (Lvmin Zhang) 開發了名為 Paints-Undo 的新項目,能夠快速拆解任意圖像的繪畫過程,幫助初學者更好地理解不同...
首個像人類一樣思考的網絡!Nature子刊:AI模擬人類感知決策
新智元報道編輯:alan 【新智元導讀】近日,來自佐治亞理工學院的研究人員開發了RTNet,首次表明其「思考方式」與人類非常相似。從能力上來講,當前AI的專業...
AI出圖更快、更美、更懂你心意,高美感文生圖模型修煉了哪些技術秘籍?
隨著大模型的落地按下加速鍵,文生圖無疑是最火熱的應用方向之一。 自從 Stable Diffusion 誕生以來,海內外的文生圖大模型層出不窮,一時有「神仙打架」之感...
比Stable Diffusion便宜118倍!1890美元訓出11.6億參數高質量文生圖模型
新智元報道編輯:alan 【新智元導讀】近日,來自加州大學爾灣分校等機構的研究人員,利用延遲掩蔽、MoE、分層擴展等策略,將擴散模型的訓練成本降到了1890美...
2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥
新智元報道編輯:LRST 好困 【新智元導讀】Mini-Monkey 是一個輕量級的多模態大型語言模型,通過采用多尺度自適應切分策略(MSAC)和尺度壓縮機制(SCM),有...
AI美女全軍覆沒!賽博照妖鏡下集體變“鬼”,AI代碼拆臺AI生圖
明敏 克雷西 發自 凹非寺量子位 | 公眾號 QbitAI賽博照妖鏡下,AI美女全變鬼。 來看它的牙。 把圖像飽和度拉滿,AI人像的牙齒就會變得非常詭異,邊界模糊不清...
超越恐怖谷!全球500萬網友被騙,爆火TEDx演講者沒一個是真人?
新智元報道編輯:Aeneas 好困 【新智元導讀】最近,這幾位TED演講者,在外網形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉后,五百萬網友簡直驚...
這個開源文生圖只需要在筆記本上運行,但效果超過了Midjourney
點擊上方藍字關注我們“摘要:Flux AI圖像生成模型由Black Forest Labs推出,開源且性能優越,與市場領導者Midjourney競爭,支持多平臺使用,提供專業版、Dev...
兩篇論文同時獲最佳論文榮譽提名,SIGGRAPH上首個Real-Time Live的中國團隊用生成式AI創建3D世界
機器之心報道 機器之心編輯部專注于計算機圖形學的全球學術頂會 SIGGRAPH,正在出現新的趨勢。 在上周舉行的 SIGGRAPH 2024 大會上,最佳論文等獎項中,來自...
AI頂會KDD’24今日截稿!Llama 3.1中文微調數據集已上線,超大模型一鍵部署
7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多數同學都能體驗 GPT-4o、Mistral-Nemo 這樣的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 這樣的超大...
ICML 2024 | 人物交互圖像,現在更懂你的提示詞了,北大推出基于語義感知的人物交互圖像生成框架
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準
新智元報道編輯:喬楊 【新智元導讀】LLM的數學推理能力缺陷得到了很多研究的關注,但最近浙大、中科院等機構的學者們提出,先進模型在視覺推理方面同樣不足...