標簽:編碼器
陳丹琦團隊新作:Llama-2上下文擴展至128k,10倍吞吐量僅需1/6內存
豐色 發自 凹非寺量子位 | 公眾號 QbitAI陳丹琦團隊剛剛發布了一種新的LLM上下文窗口擴展方法: 它僅用8k大小的token文檔進行訓練,就能將Llama-2窗口擴展至1...
谷歌AI視頻再出王炸!全能通用視覺編碼器VideoPrism,性能刷新30項SOTA
新智元報道編輯:桃子 【新智元導讀】谷歌團隊推出「通用視覺編碼器」VideoPrism,在3600萬高質量視頻字幕對和5.82億個視頻剪輯的數據集上完成了訓練,性能刷...
用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑
Neural Network Diffusion,開始用魔法打敗魔法了。作者丨賴文昕 編輯丨郭思、陳彩嫻 說起擴散模型生成的東西,你會立刻想到什么? 是OpenAI的經典牛油果椅子...
如何提升多模態效果?從這26個主流大模型來看看
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI基礎軟件專場和AIGC應用專場;分會場將進行具...
香港最大AI詐騙案!Deepfake換臉「英國CFO」,直接騙走公司2億港幣
新智元報道編輯:潤 【新智元導讀】香港一家跨國公司員工,被騙子邀請進了用Deepfake做的「高管視頻會議」中,下令讓他轉了2億港幣到不知名中賬戶,5天之后才...
騰訊發表多模態大模型最新綜述,從26個主流大模型看多模態效果提升關鍵方法
夕小瑤科技說 原創作者 | 小戲、Python在大規模語言模型(LLMs)通往通用人工智能(AGI)的道路中,從傳統的單一的“語言模態”擴展到“圖像”、“語音”等等的“多...
何愷明謝賽寧團隊步步解構擴散模型,最后竟成經典去噪自編碼器
機器之心報道 編輯:Panda去噪擴散模型(DDM)是當前圖像生成技術的一大主流方法。近日,Xinlei Chen、Zhuang Liu、謝賽寧與何愷明四人團隊對 DDM 進行了解構...
何愷明謝賽寧解剖擴散模型,新作剛剛出爐
編輯部 發自 凹非寺量子位 | 公眾號 QbitAICV大神何愷明,也來搞擴散模型(Diffusion Model)了! 大神最新論文剛剛掛上arXiv,還是熱乎的:解構擴散模型,提...
大模型學會聽音樂了!風格樂器精準分析,還能剪輯合成
騰訊PCG ARC實驗室 投稿量子位 | 公眾號 QbitAI能處理音樂的多模態大模型,終于出現了! 只見它準確分析出音樂的旋律、節奏,還有使用的樂器,甚至其中的意境...
阿里通義實驗室高級算法工程師文束:mPLUG-DocOwl:多模態文檔理解大模型
1月17日晚7點,智猩猩推出「多模態大模型線上閉門會」。本次閉門會由阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品,并聚焦于大語言模型工具調用 Control...
騰訊 PCG ARC Lab、新加坡國立大合發布 M2UGen:基于 LLM 的多模態音樂理解與生成
在過去的一年里,基于大語言模型LLM的音樂AIGC技術蓬勃發展,為LLM的下游應用注入了新的活力。 本研究成果M2UGen致力于將LLM和音樂理解與音樂生成技術相結合...
Faster Diffusion | 深入挖掘UNet編碼器作用,加速41%采樣速度,效果幾乎不下降
直播預告 | 今晚7點,「AI新青年講座」232講正式開講,清華大學在讀博士劉世隆主講《LLaVA-Plus:學習使用視覺工具插件的多模態智能體》,歡迎掃碼報名。http...
NeurIPS23|視覺 「讀腦術」:從大腦活動中重建你眼中的世界
機器之心專欄 機器之心編輯部在這篇 NeurIPS23 論文中,來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視覺 「讀腦術」,能夠從人類的大腦...
小模型也可以「分割一切」,Meta改進SAM,參數僅為原版5%
機器之心報道編輯:陳萍、蛋醬對于 2023 年的計算機視覺領域來說,「」(Segment Anything Model)是備受關注的一項研究進展。Meta四月份發布的「分割一切模...
跨語種「AI同傳」震撼登場!Meta谷歌重大突破,顛覆語音翻譯
新智元報道編輯:好困【新智元導讀】Meta谷歌接連放出重磅成果!Meta開源無縫交流語音翻譯模型,谷歌放出無監督語音翻譯重大突破Translation 3。就在Meta AI...