比A100性價比更高！FlightLLM讓大模型推理不再為性能和成本同時發愁

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：比A100性價比更高！FlightLLM讓大模型推理不再為性能和成本同時發愁
關鍵字：模型,矩陣,指令,階段,長度
文章來源：機器之心
內容字數：6223字

內容摘要：

機器之心專欄
機器之心編輯部大語言模型在端側的規模化應用對計算性能、能效比需求的“提拽式”牽引，在算法與芯片之間，撕開了一道充分的推理競爭場。
面對想象中的終端場景，基于 GPU 和 FPGA 的推理方案的應用潛力需要被重新審視。
近日，無問芯穹、清華大學和上海交通大合提出了一種面向 FPGA 的大模型輕量化部署流程，首次在單塊 Xilinx U280 FPGA 上實現了 LLaMA2-7B 的高效推理。
第一作者為清華大學電子系博士及無問芯穹硬件負責人曾書霖，通訊作者為上海交通大學副教授、無問芯穹聯合創始人兼首席科學家戴國浩，清華大學電子工程系教授、系主任及無問芯穹發起人汪玉。
相關工作現已被可重構計算領域頂級會議 FPGA’24 接收。論文鏈接：https://arxiv.org/pdf/2401.03868.pdf
回顧上一輪清華電子系相關工作被 FPGA 國際會議收錄的蹤跡，要追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 與 2017 年 ESE:

原文鏈接：比A100性價比更高！FlightLLM讓大模型推理不再為性能和成本同時發愁