標簽:圖像
視覺模型底座超越OpenAI,格靈深瞳開啟多模態落地的Scaling Law
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI大模型時代,有個大家普遍焦慮的問題:如何落地?往哪落地? 聚光燈下最耀眼的OpenAI,最近也先被曝出資金告急,后又尋...
一鍵部署Phi 3.5 mini+vision!多模態閱讀基準數據集MRR-Benchmark上線,含550個問答對
??小模型又又又卷起來了!微軟開源三連發!一口氣發布了 Phi 3.5 針對不同任務的 3 個模型,并在多個基準上超越了其他同類模型。 其中 Phi-3.5-mini-instruct...
9個人的公司,做文生圖,2500萬用戶,每年凈利潤200萬美元
Flux 帶起又一波文生圖模型的熱潮,NightCafe 是其中的受益者之一。 這家文生圖網站,月活 100 萬,用戶超 2500 萬,每年有 200 萬的凈利潤,但員工還不到 10...
Flux、SD等圖片生成模型遭“封禁”,但這次硅谷大廠不反對了!
整理 | 褚杏娟、核子可樂 “SB 1047 和 AB 3211 將會消滅加州的開源?!庇芯W友評價道。 就在人們為 SB 1047 號法案而抓狂之時,另一項加州法案 AB 3211 已經悄...
階躍星辰生圖模型上線,國風意境絕美,隱藏咒語曝光!
新智元報道編輯:編輯部 【新智元導讀】備受期待的階躍星辰圖像生成大模型Step-1X,正式上線了!創作古詩詞配圖意境絕美,古典中國園林的每片葉子都很逼真,...
韓國“N號房”因 Deep Fake 再現,受害者向中國網友求救
整理 | 華衛、核子可樂 視頻 AI 生成技術的最新進展,已經開始產生一系列令人憂心的社會影響。不少精通這些技術的年輕人被發現,正在未經他人同意的情況下制...
通義千問開源視覺語言模型 Qwen2-VL,可理解 20 分鐘以上視頻
整理 | 褚杏娟 2023 年 8 月,通義千問開源第一代視覺語言理解模型 Qwen-VL,成為開源社區最受歡迎的多模態模型之一。短短一年內,模型下載量突破 1000 萬次...
韓國N號房卷土重來,這一次是Deepfake,波及超200所學校
金磊 一水 發自 凹非寺量子位 | 公眾號 QbitAIDeepfake(深度偽造),再度深陷輿論的風波。 這一次,用這項AI技術犯罪的嚴重程度被網友直呼是“韓國N號房2.0”...
超越GPT-4o!阿里發布最強開源多模態模型Qwen2-VL,支持實時視頻對話
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI新的最強開源多模態大模型來了! 阿里Qwen2大模型家族新添多模態模型Qwen2-VL,在圖像和長視頻理解任務上雙雙取得...
Imagen 3支持人物生成,人人可用!谷歌Gemini AI重大升級來了
新智元報道編輯:桃子 【新智元導讀】時隔5個月,Imagen 3終于可以人人可用了,而且還能支持是生成人物圖像。與此同時,谷歌宣布了Gemini AI的重大升級,全新...
10k 星開源數據處理工具一鍵啟動!支持 176 種語言識別;首個高層墜物檢測數據集上線,含 18 個場景的近 2k 個視頻
在人工智能領域,多模態數據處理一直是個難題。面對復雜的 PDF、網頁和多種格式電子書,有效提取關鍵信息并非易事。 上海人工智能實驗室和 OpenDataLab 團隊...
含 14 萬張圖像!華中科技大學發布高質量甲骨文數據集,助力團隊摘冠 ACL 最佳論文
作者:王鵬杰 編輯:十九,李寶珠 華中科技大學白翔教授研究團隊的王鵬杰等人,提出了高質量的 HUST-OBC 甲骨文數據集,從書籍、網站和現有數據集這 3 種不同...
視頻生成控制提升幾十倍,新一代輕量級ControlNeXt火了,賈佳亞團隊正挑戰Scaling Law
機器之心原創 編輯:杜偉最近,又一款國產 AI 神器吸引了眾網友和圈內研究人員的關注!它就是全新的圖像和視頻生成控制工具 —— ControlNeXt,由思謀科技創始...
深度學習還不如淺層網絡?RL教父Sutton持續反向傳播算法登Nature
機器之心報道 機器之心編輯部???????人工神經網絡、深度學習方法和反向傳播算法構成了現代機器學習和人工智能的基礎。但現有方法往往是一個階段更新網絡權重...
圖像AI那么耗算力,問題出在 RGB 格式上?
Hello,大家好,我是 JioNLP。 最近一直在想一個問題。為什么我們的圖像 AI 模型那么耗算力?比如,現在多模態圖文理解 AI 模型本地化部署一個節點,動不動就...