也許二十年后再回首,我們會發現,現在我們就站在下一個“互聯網級奇跡”的起點上。
原標題:我與vLLM的2024:清華大佬的vLLM開發之路
文章來源:智猩猩GenAI
內容字數:12100字
vLLM項目參與者2024年經歷回顧
本文回顧了作者2024年參與vLLM開源項目的心路歷程,從初入項目到深度參與,見證了vLLM的成長和發展,并分享了在項目中遇到的挑戰和收獲,以及對AI未來發展的思考。
1. 項目緣起與ChatGPT的沖擊
作者在2019年UC Berkeley的RISELab暑期研修期間結識了vLLM的未來創始人,五年后因ChatGPT的出現以及對AI研究現狀的困惑,決定轉向機器學習系統研究,最終參與了vLLM項目。
2. 初入vLLM:開源項目的管理與挑戰
作者加入vLLM后,首先將PyTorch的開源管理經驗移植到vLLM,并通過訂閱GitHub消息,快速了解項目,并解決問題。期間,作者主要負責解決PyTorch版本升級帶來的兼容性問題,以及vLLM的分布式推理。
3. PyTorch 2.2的挑戰與John Schulman的合作
將vLLM依賴的PyTorch從2.1升級到2.2的過程中,作者發現了內存占用異常增加的問題,經過三個月的排查,最終找到并解決了問題。在解決RLHF流程中類似問題時,作者與OpenAI的John Schulman合作,將權重更新時間從3分鐘壓縮到4秒。
4. 從GPU Poor到GPU Rich:社區的幫助與支持
由于資源限制,vLLM早期性能測試受限。在社區的幫助下,NVIDIA、AWS、Google Cloud等提供了大量計算資源,解決了燃眉之急。作者強調了社區支持對vLLM發展的重要性。
5. LLaMA 3.1 405B的挑戰與成功
作者參與了對LLaMA 3.1 405B模型的支持工作,開發了多機分布式推理功能,成功支持了該模型的推理,并最終使得Meta的十個官方發布合作伙伴中有八個選擇了vLLM。
6. vLLM的重構與優化:性能與硬件兼容性
為了解決早期性能跟蹤機制不足的問題,作者參與了vLLM的重構工作,增加了基于ZMQ的API服務器、多步調度等特性,并創建了vllm.platforms子模塊,以提高性能和硬件兼容性。
7. torch.compile集成與PyTorch生態系統
作者推動vLLM加入PyTorch生態系統,并與PyTorch團隊合作,開發了vLLM專屬的推理優化torch.compile技術棧。
8. PyTorch Conference與Meetup:技術交流與學習
作者參加了PyTorch 2024大會,并與多位業內專家交流學習,分享了在硅谷技術社區的參與經歷。
9. vLLM的未來與開源精神
作者認為vLLM將成為智能時代的“Linux”,并希望通過加入Linux基金會,進一步壯大社區,共同建設智能時代的生態系統。
10. 硬件親和性與算法發展
作者引用《The Hardware Lottery》論文,強調了硬件親和性對算法成功的重要性,建議算法研究人員應與硬件發展緊密結合,而非僅僅依靠“硬件彩票”。
11. 泡沫與奇跡:對AI未來發展的展望
作者認為AI發展如同互聯網發展一樣,經歷泡沫后仍將擁有巨大的潛力,并對AI的未來發展充滿信心。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。