專為訓練Llama 3，Meta 4.9萬張H100集群細節公布

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：專為訓練Llama 3，Meta 4.9萬張H100集群細節公布
關鍵字：集群,人工智能,性能,模型,網絡
文章來源：機器之心
內容字數：5773字

內容摘要：

機器之心報道
機器之心編輯部只想知道 Llama 3 何時能來？生成式大模型給人工智能領域帶來了重大變革，人們在看到實現通用人工智能（AGI）希望的同時，訓練、部署大模型的算力需求也越來越高。
剛剛，Meta 宣布推出兩個 24k GPU 集群（共 49152 個 H100），標志著 Meta 為人工智能的未來做出了一筆重大的投資。
這是 Meta 雄心勃勃的基礎設施路線圖中的一步。Meta 會持續擴大基礎設施建設，到 2024 年底將包括 350000 個 NVIDIA H100 GPU，其計算能力將相當于近 600000 個 H100。
Meta 表示：「我們堅定致力于開放計算和開源。我們在 Grand Teton、OpenRack 和 PyTorch 之上構建了這些集群，并將繼續推動整個行業的開放創新。我們會使用這種算力集群來訓練 Llama 3。」
圖靈獎得主、Meta 首席科學家 Yann LeCun 也發推強調了這一點。
Meta 分享了新集群在硬件、網絡、存儲、設計、性能和軟件方面的詳細信息。新集群將為各種人工智能工作負載獲取高吞吐量和高可靠性。
集群概覽
Meta 的長

原文鏈接：專為訓練Llama 3，Meta 4.9萬張H100集群細節公布