標簽:編碼器

模塊化重構LLaVA,替換組件只需添加1-2個文件,開源TinyLLaVA Factory來了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

Tunnel Try-on:阿里最新視頻試衣生成算法

直播預告 | 5月23日晚7點,「智猩猩機器人新青年講座」第6講正式開講,論文一作、清華大學在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進展...
閱讀原文

AI頂會ICLR,今年只有一家中國大模型公司受邀演講

金磊 假裝發自 維也納量子位 | 公眾號 QbitAI機器學習三大頂會之一的ICLR 2024,正在維也納如火如荼地舉行。 雖然首個時間檢驗獎、杰出論文獎等“重頭戲”已經...
閱讀原文

首個ICLR時間檢驗獎出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它

白交 發自 凹非寺量子位 | 公眾號 QbitAI首屆ICLR時間檢驗獎,頒向變分自編碼器VAE。 這篇跨越十一年的論文,給后續包括擴散模型在內的生成模型帶來重要思想...
閱讀原文

今日arXiv最熱聯邦學習論文:通信成本降低94%,中科院計算所發布個性化聯邦學習方法

夕小瑤科技說 原創作者 | Richard引言:你的隱私,聯邦來守護!想象一下,未來你的手機就像一位貼心的私人助理,能夠洞察你的喜好、日程,甚至預測你的情緒。...
閱讀原文

Transformer解碼真實場景!Meta推出70M參數SceneScript模型

新智元報道編輯:alan 【新智元導讀】近日,來自Meta的研究人員將Transformer用于解碼真實世界的場景,并轉化為幾何表示,效果超越了傳統的點云、網格或輻射...
閱讀原文

微軟剛剛發布了VASA-1:單張照片生成超現實真人視頻,還沒開源但是性能SOTA

夕小瑤科技說 原創作者 | 任同學還記得阿里巴巴那個讓照片說話的EMO項目嗎?如果還沒有看過相關的報道,可以看一下我們之前發過的文章哦: 比阿里EMO搶先開源...
閱讀原文

CVPR 2024 | 分割一切模型SAM泛化能力差?域適應策略給解決了

機器之心專欄 機器之心編輯部第一個針對「Segment Anything」大模型的域適應策略來了!相關論文已被CVPR 2024 接收。引言 大語言模型(LLMs)的成功激發了計...
閱讀原文

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態后期交互知識檢索器

機器之心專欄 機器之心編輯部PreFLMR模型是一個通用的預訓練多模態知識檢索器,可用于搭建多模態RAG應用。模型基于發表于 NeurIPS 2023 的 Fine-grained Late...
閱讀原文

CMU朱俊彥、Adobe新作:512×512圖像推理,A100只用0.11秒

機器之心報道 編輯:陳萍、杜偉可玩性極強!簡筆素描一鍵變身多風格畫作,還能添加額外的描述,這在 CMU、Adobe 聯合推出的一項研究中實現了。 作者之一為 CM...
閱讀原文

OpenAI官宣開源Transformer Debugger!不用寫代碼,人人可以LLM黑箱

新智元報道編輯:編輯部 【新智元導讀】剛剛,OpenAI超級對齊團隊負責人官宣開源Transformer調試器。研究人員不用寫代碼,就能快速探索LLM的內部構造了!AGI...
閱讀原文

OpenAI開源了:Transformer自動debug工具上線GitHub

機器之心報道 編輯:澤南不用敲代碼,就可以快速探索模型結構。最近時常被吐槽不夠開源的 OpenAI,突然開放了一次。 今天一早,OpenAI 機器學習研究員 Jan Le...
閱讀原文

谷歌發布最新「讀屏」AI!PaLM 2-S自動生成數據,多項理解任務刷新SOTA

新智元報道編輯:桃子 【新智元導讀】谷歌在語言和聲控計算機界面的漫長道路上又邁出了重要一步。最新ScreenAI視覺語言模型,能夠完成各種屏幕QA問答、總結摘...
閱讀原文

解剖Sora:37頁論文逆向工程推測技術細節,微軟參與,華人團隊出品

西風 發自 凹非寺量子位 | 公眾號 QbitAISora剛發布不久,就被逆向工程“解剖”了?! 來自理海大學、微軟研究院的華人團隊發布了首個Sora相關研究綜述,足足有...
閱讀原文

Stable Diffusion 解讀(一):回顧早期工作

智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身...
閱讀原文