標簽:圖像

香港最大AI詐騙案!Deepfake換臉「英國CFO」,直接騙走公司2億港幣

新智元報道編輯:潤 【新智元導讀】香港一家跨國公司員工,被騙子邀請進了用Deepfake做的「高管視頻會議」中,下令讓他轉了2億港幣到不知名中賬戶,5天之后才...
閱讀原文

罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?

機器之心報道 編輯:蛋醬、陳萍拍張照片,輸入文字指令,手機就開始自動修圖? 這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。把背景中的人移除在...
閱讀原文

谷歌連放大招:Gemini Pro支持中文,Bard學會畫畫,還上新了新模型

豐色 發自 凹非寺量子位 | 公眾號 QbitAI在競技場超車GPT-4的Bard“抓住勢頭”,剛剛釋出重大更新: 一是集成的Gemini Pro全面鋪開,新增40多種語言支持,包括...
閱讀原文

Google Bard可以生成圖片了,Gemini Pro向全球40多種語言開放

點擊上方藍字關注我們谷歌公司近日在其巴德聊天機器人中引入了新的圖像生成功能,以抗衡競爭對手OpenAI的DALL-E 3,此舉旨在保持在多模態聊天機器人領域的競...
閱讀原文

小紅書開源「InstantID」效果炸裂,被Yann LeCun點贊,迅速躥上Github熱榜

機器之心發布 機器之心編輯部只需一張照片,整個過程無需訓練 LoRA 模型,多風格 AI 寫真即刻呈現! 最近,有一群來自小紅書的 95 后神秘團隊,自稱 InstantX...
閱讀原文

最強開源多模態生成模型MM-Interleaved:首創特征同步器

機器之心專欄 機器之心編輯部過去幾個月中,隨著 GPT-4V、DALL-E 3、Gemini 等重磅工作的相繼推出,「AGI 的下一步」—— 多模態生成大模型迅速成為全球學者矚...
閱讀原文

梵高大跳科目三,只需文字+火柴人動效!可控視頻生成框架來了 | AAAI 2024

馬躍 投稿量子位 | 公眾號 QbitAI視頻生成還可以這么玩? 來一個“火柴人”做做動作示范,再加文本描述,即可讓各種形象惟妙惟肖地跟著動起來。 比如男人在公園...
閱讀原文

準確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個圖像序列基準測試開源

新智元報道編輯:LRS 【新智元導讀】馬里蘭大學聯合北卡教堂山發布首個專為多模態大語言模型(MLLM)設計的圖像序列的基準測試Mementos,涵蓋了真實世界圖像...
閱讀原文

純文本模型訓出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫

新智元報道編輯:LRS 【新智元導讀】不用圖像,只用文本就能訓練出視覺概念表征?用寫代碼的方式讀懂畫面,形狀、物體、場景都能懂!只會「看書」的大語言模...
閱讀原文

ICLR 2024|把圖像視為外語,快手、北大多模態大模型媲美DALLE-3

機器之心報道 機器之心編輯部動態視覺分詞統一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。 當前的大型語言模型如 GPT、LLaMA 等...
閱讀原文

騰訊發表多模態大模型最新綜述,從26個主流大模型看多模態效果提升關鍵方法

夕小瑤科技說 原創作者 | 小戲、Python在大規模語言模型(LLMs)通往通用人工智能(AGI)的道路中,從傳統的單一的“語言模態”擴展到“圖像”、“語音”等等的“多...
閱讀原文

何愷明謝賽寧團隊步步解構擴散模型,最后竟成經典去噪自編碼器

機器之心報道 編輯:Panda去噪擴散模型(DDM)是當前圖像生成技術的一大主流方法。近日,Xinlei Chen、Zhuang Liu、謝賽寧與何愷明四人團隊對 DDM 進行了解構...
閱讀原文

垂直場景大有可為,電商AI圖片工具PhotoRoom完成新融資,估值5億美元

AI 圖像編輯領域一直是熱門領域,國內的妙鴨相機就是其中的代表產品,但 ToC 顯然不是產品落地的唯一場景,更多垂直場景的落地才是 AI 圖像編輯的發展方向。...
閱讀原文

多模態大模型,阿里通義千問能和GPT-4V掰手腕了

機器之心報道 編輯:澤南、蛋醬通義千問的圖像推理能力,最近有了大幅提升。 2024 年,大模型領域要卷什么? 如果沒有思路的話,不妨看看各家大廠都在押注什...
閱讀原文

擴散模型更懂復雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

明敏 發自 凹非寺量子位 | 公眾號 QbitAIPika北大斯坦福聯手,開源最新文本-圖像生成/編輯框架! 無需額外訓練,即可讓擴散模型擁有更強提示詞理解能力。 面...
閱讀原文
1282930313248