標簽:表征
神經網絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內容相同
新智元報道編輯:喬楊 【新智元導讀】深度神經網絡有多種規模和架構,大家普遍認為這會影響到模型學習到的抽象表示。然而,UCL兩位學者發表在ICML 2024上第一...
Llama也能做圖像生成!港大字節推出開源自回歸文生圖模型,在線體驗已開放
LlamaGen團隊 投稿量子位 | 公眾號 QbitAI只需Image Tokenizer,Llama也能做圖像生成了,而且效果超過了擴散模型。 來自港大和字節的研究人員,提出了基于自...
CVPR'24收錄!利用技能學習的擴散策略實現層次化機器人軌跡生成 | 港大梁志烜博士講座預告
「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領域的最新重要研究成果。 AI新青年是加速人工...
LeCun謝賽寧首發全新視覺多模態模型,等效1000張A100干翻GPT-4V
新智元報道編輯:編輯部 【新智元導讀】近日,LeCun和謝賽寧等大佬,共同提出了這一種全新的SOTA MLLM——Cambrian-1。開創了以視覺為中心的方法來設計多模態模...
ICML 2024 | 信號表征指數級強、內存節省超35%,量子隱式表征網絡來了
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
今日arXiv最熱大模型論文:大模型對齊告別微調,直接編輯表征空間即可解決
夕小瑤科技說 原創作者 | Richard人工智能技術正在飛速發展,尤其是大語言模型在自然語言處理領域取得了令人矚目的成就。但同時,我們也面臨著如何讓語言模型...
語言≠思維,大模型學不了推理:一篇Nature讓AI社區炸鍋了
機器之心報道 機器之心編輯部方向完全搞錯了?大語言模型(LLM)為什么空間智能不足,GPT-4 為什么用語言以外的數據訓練,就能變得更聰明?現在這些問題有 「...
ICML 2024 Oral|外部引導的深度聚類新范式
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
多模態大模型不夠靈活,谷歌DeepMind創新架構Zipper:分開訓練再「壓縮」
機器之心報道 編輯:蛋醬最近的一系列研究表明,純解碼器生成模型可以通過訓練利用下一個 token 預測生成有用的表征,從而成功地生成多種模態(如音頻、圖像...
只需單卡RTX 3090,低比特量化訓練就能實現LLaMA-3 8B全參微調
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
從Claude 3中提取數百萬特征,首次詳細理解大模型的「思維」
機器之心報道 編輯:陳萍、小舟剛剛,Anthropic 宣布在理解人工智能模型內部運作機制方面取得重大進展。Anthropic 已經確定了如何在 Claude Sonnet 中表征數...
Ilya離職后第一個動作:點贊了這篇論文,網友搶著傳看
西風 發自 凹非寺量子位 | 公眾號 QbitAI自Ilya Sutskever官宣離職OpenAI后,他的下一步動作成了大家關注焦點。 甚至有人密切關注著他的一舉一動。 這不,Ily...
KAN網絡技術最全解析——最熱KAN能否干掉MLP和Transformer?
導讀本文來自知乎,已獲授權,作者為陳巍博士。本文對KAN網絡進行了深入解析,涉及KAN網絡的基本思路、架構與縮放、可解釋性。 陳巍博士,千芯科技董事長,曾...
小模型性能飽和、表現不佳,根源是因為Softmax?
機器之心報道 編輯:陳萍小語言模型的出現是為彌補大語言模型的訓練、推理等成本昂貴的缺點,但其自身也存在訓練到某個階段后性能下降的事實 (飽和現象),那...
AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
粵公網安備 44011502001135號