長序列（Long Context）大模型筆記

AIGC動態歡迎閱讀

原標題：長序列（Long Context）大模型筆記
關鍵字：序列,侵權,知乎,感覺,模型
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

導讀作者為Rooters
原文來自知乎，地址：https://zhuanlan.zhihu.com/p/926602895
本文只做學術/技術分享，如有侵權，聯系刪文。記錄下過去一年業界長序列LLM的訓練/推理方法。包括modeling方面和ml-sys方面的內容。以及一些看好的探索方向希望大家一起討論。有些方面了解不全歡迎大家指出，補充+討論！
01Position Embedding（位置編碼）ALIBI 和RoPE
一年前剛有長序列探索時，一些模型會在ALIBI和RoPE里做選擇，而后來新的模型一般都是RoPE為主（llama，mistral，cohere等）。ALIBI有個問題是原paper提出無損外推，但是后續工作發現在訓練一定token數目（比如1T)之后會overfit這個訓練length，并且好像沒有很好的類似RoPE-NTK的方式去微調（有類似Position Interpolation的方式，好像效果一般）。一些ALIBI的后續工作比如FIRE沒有被廣泛應用。System的角度ALIBI和flash attention不兼容，需要實體化這個bias mask或者融合

原文鏈接：長序列（Long Context）大模型筆記

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 侵權 # 序列 # 感覺 # 模型 # 知乎

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

長序列（Long Context）大模型筆記

AIGC動態歡迎閱讀

內容摘要：

聯系作者

《麻省理工科技評論》萬字長文：什么是人工智能？

類Sora大模型入秋：訪問量驟降，被李彥宏潑冷水，“十年難見收益”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

長序列（Long Context）大模型筆記

AIGC動態歡迎閱讀

內容摘要：

聯系作者

《麻省理工科技評論》萬字長文：什么是人工智能？

類Sora大模型入秋：訪問量驟降，被李彥宏潑冷水，“十年難見收益”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

類Sora大模型入秋：訪問量驟降，被李彥宏潑冷水，“十年難見收益”