AIGC動態歡迎閱讀
原標題:長序列(Long Context)大模型筆記
關鍵字:序列,侵權,知乎,感覺,模型
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
導讀作者為Rooters
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/926602895
本文只做學術/技術分享,如有侵權,聯系刪文。記錄下過去一年業界長序列LLM的訓練/推理方法。包括modeling方面和ml-sys方面的內容。以及一些看好的探索方向希望大家一起討論。有些方面了解不全歡迎大家指出,補充+討論!
01Position Embedding(位置編碼)ALIBI 和RoPE
一年前剛有長序列探索時,一些模型會在ALIBI和RoPE里做選擇,而后來新的模型一般都是RoPE為主(llama,mistral,cohere等)。ALIBI有個問題是原paper提出無損外推,但是后續工作發現在訓練一定token數目(比如1T)之后會overfit這個訓練length,并且好像沒有很好的類似RoPE-NTK的方式去微調(有類似Position Interpolation的方式,好像效果一般)。一些ALIBI的后續工作比如FIRE沒有被廣泛應用。System的角度ALIBI和flash attention不兼容,需要實體化這個bias mask或者融合
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...