AIGC動態歡迎閱讀
原標題:24年對于大模型演進方向的一些思考
關鍵字:模型,知乎,侵權,框架,編譯器
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
導讀文章轉載自知乎,作者為霸王腿,總結了關于大模型計算方式如何變革的一些思路。
原文地址:https://zhuanlan.zhihu.com/p/682434451
本文只做學術/技術分享,如有侵權,聯系刪文。大模型計算方式會如何變革,一直是一個持續思考的問題,簡單記錄一些思路,邏輯并不嚴謹,不怕打臉,一年后再看。
01大模型發展的方向是“稀疏”這里面稀疏指的是,每次執行具體的任務所消耗的資源與整體參數量的比值會越來越低。從以gemm為主到以gemv為主,可以算是一種稀疏(本質上這種稀疏允許了更大的context length的可能性)。MoE毫無疑問也是更稀疏的。從人理解世界的方式而言,稀疏應該是一個比較commen sense的思路。
02訓練和推理的界限會變得模糊推理的過程中會進行著某種形式的訓練。本質而言,長seq_length帶來的巨大的kv cache就是某種意義上的訓練,但看起來并不是一種足夠高效的方式,所以我感覺這未必會是終極形態。從具體的程序架構而言,在推理的執行模塊,對于每層而言,out=op(in0,in1,attrs) 其中op只改變out的值并不足以作為
原文鏈接:24年對于大模型演進方向的一些思考
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...