AIGC動態歡迎閱讀
原標題:8x7B MoE與Flash Attention 2結合,不到10行代碼實現快速推理
關鍵字:模型,表示,基準,初始化,步驟
文章來源:機器之心
內容字數:2516字
內容摘要:
機器之心報道
編輯:陳萍感興趣的小伙伴,可以跟著操作過程試一試。前段時間,Mistral AI 公布的 Mixtral 8x7B 模型爆火整個開源社區,其架構與 GPT-4 非常相似,很多人將其形容為 GPT-4 的「縮小版」。
我們都知道,OpenAI 團隊一直對 GPT-4 的參數量和訓練細節守口如瓶。Mistral 8x7B 的放出,無疑給廣大開發者提供了一種「非常接近 GPT-4」的開源選項。
在基準測試中,Mistral 8x7B 的表現優于 Llama 2 70B,在大多數標準基準測試上與 GPT-3.5 不相上下,甚至略勝一籌。圖源:https://mistral.ai/news/mixtral-of-experts/
隨著這項研究的出現,很多人表示:「閉源大模型已經走到了結局。」短短幾周的時間,機器學習愛好者 Vaibhav (VB) Srivastav 表示:隨著 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的發布,現在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結合使用,達到快速推理的目
原文鏈接:8x7B MoE與Flash Attention 2結合,不到10行代碼實現快速推理
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...