AIGC動態歡迎閱讀
原標題:Hyena成下一代Transformer?StripedHyena-7B開源:最高128k輸入,訓練速度提升50%
關鍵字:注意力,卷積,算子,序列,研究人員
文章來源:新智元
內容字數:8804字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】Hyena處理長序列輸入比FlashAttention速度高100倍!最新發布的StripedHyena模型可能成下一代AI架構的新標準?最近幾年發布的AI模型,如語言、視覺、音頻、生物等各種領域的大模型都離不開Transformer架構,但其核心模塊「注意力機制」的計算復雜度與「輸入序列長度」呈二次方增長趨勢,這一特性嚴重限制了Transformer在長序列下的應用,例如無法一次性處理一整本書,或是處理千兆像素級別的圖像。
即便強如GPT-4也難以擺脫這種缺陷。
最近,Together Research開源了一個全新的語言模型StripedHyena,采用了針對「長上下文」的新架構,可以處理高達128k個token的長上下文,并且改進了Transformer架構在訓練和推理上的性能,為目前的主流架構提供了一種可選方案。開源鏈接:https://github.com/togethercomputer/stripedhyena
StripedHyena也是「首個」在短上下文和長上下文評估中,以相同模型尺寸,實現了與最佳開源Transformer模型
原文鏈接:Hyena成下一代Transformer?StripedHyena-7B開源:最高128k輸入,訓練速度提升50%
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。