標簽:文本
攻克圖像「文本生成」難題,碾壓同級擴散模型!兩代TextDiffuser架構深度解析
新智元報道編輯:LRS 好困 【新智元導讀】解決擴散模型「不識字」的問題,Textdiffuser采用兩階段(布局+圖像)生成框架,顯著提升了相關性能的指標!近年來...
看見這張圖沒有,你就照著畫:谷歌圖像生成AI掌握多模態指令
機器之心報道 編輯:Panda用圖 2 的風格畫圖 1 的貓貓并給它戴上一頂帽子。谷歌新設計的一種圖像生成模型已經能做到這一點了!通過引入指令微調技術,多模態...
無需文本標注,TF-T2V把AI量產視頻的成本打下來了!華科阿里等聯合打造
機器之心專欄 機器之心編輯部在過去短短兩年內,隨著諸如LAION-5B 等大規模圖文數據集的開放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果驚人...
一句話精準視頻片段定位!清華新方法拿下SOTA|已開源
陳厚倫 投稿量子位 | 公眾號 QbitAI只需一句話描述,就能在一大段視頻中定位到對應片段! 比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配...
短劇時代即將來臨?AI自動生成劇本和多場景長視頻
大數據文摘授權轉載自將門創投 作者:HiDream.ai 近年來隨著擴散模型(diffusion models)的進步和發展,給定文本提示進行高質量視頻生成技術有著顯著的提升...
谷歌發布Prompt Expansion框架,讓文生圖更輕松!
夕小瑤科技說 原創作者 | 付奶茶、Python盡管文本生成圖像(Text-to-Image Generation)模型功能強大,但有效地利用它們依然是一項挑戰,因為傳統使用方法往...
GPT-4抽象推理PK人類差距巨大!多模態遠不如純文本,AGI火花難以燃燒
新智元報道編輯:Mindy 潤 【新智元導讀】圣達菲研究所的科研人員用非常嚴謹的定量研究方法,測試出了GPT-4在推理和抽象方面與人類水平還有較大差距。要想從G...
AI繪圖模型不會寫字的難題,被阿里了
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI能準確寫漢字的AI繪圖工具,終于登場了! 包括中文在內一共支持四種語言,而且還能文字的位置還能任意指定。 從此...
用擴散模型監督NeRF,清華文生3D新方法成新SOTA
清華王霞投稿量子位 | 公眾號 QbitAI用文字合成3D圖形的AI模型,又有了新的SOTA! 近日,清華大學劉永進教授課題組提出了一種基于擴散模型的文生3D新方式。 ...
阿里mPLUG-Owl新升級,魚與熊掌兼得,模態協同實現MLLM新SOTA
機器之心專欄 機器之心編輯部OpenAI GPT-4V 和 Google Gemini 都展現了非常強的多模態理解能力,推動了多模態大模型(MLLM)快速發展,MLLM 成為了現在業界最...
Meta翻譯大模型可模仿語氣語速!AI再也不“莫得感情”了|GitHub 9k標星
豐色 發自 凹非寺量子位 | 公眾號 QbitAIMeta發布了全新AI翻譯大模型,實時語音轉換延遲不超過2秒。 感受一把這個速度(西班牙語英語): 不僅速度快,它的準...
谷歌推出視頻生成大型語言模型VideoPoet
點擊上方藍字關注我們“Google推出VideoPoet,一款生成式AI系統,通過文本等輸入創建和編輯視頻。與競爭模型不同,VideoPoet整合多項功能于單一模型,包括文本...
谷歌發布新大語言模型:零樣本生成10秒視頻達SOTA!網友:壓力給到Runway/Pika
明敏 發自 凹非寺量子位 | 公眾號 QbitAI你敢信?大熊貓都會打牌了! 看這毛茸茸的腦袋、抓牌的動作…… 而這其實都是AI生成的,還是零樣本那種。 這就是谷歌最...
OpenAI 官方 Prompt 工程指南:寫好 Prompt 的六個策略
其實一直有很多人問我,Prompt 要怎么寫效果才好,有沒有模板。 我每次都會說,能清晰的表達你的想法,才是最重要的,各種技巧都是其次。但是,我還是希望發...
視頻生成可以無限長?谷歌VideoPoet大模型上線,網友:性技術
機器之心報道 機器之心編輯部蒙娜麗莎打哈欠,小雞學會舉鐵……谷歌VideoPoet大模型表現很亮眼。2023 年底,科技公司都在沖擊生成式 AI 的最后一個關卡 —— 視頻...