我扒出了Gemini 2.0超實時多模態幕后的黑科技，第六代TPU芯片Trillium！

最近真是 AI 圈的大年三十初一初二初啊。。。。。各個大廠都爭先恐后的整花活！OpenAI 放出了 o1 Pro、GPT-4o 高級語音、GPTCanavas，就跟孔雀開屏一樣～谷歌最近的大動作是發布了 Gemini 2.0 嘛！2.0 比 1.5 版本快一倍，而且是原生的多模態大模型，能輸入和生成語言、聲音、圖片、視頻等。而且，最受大家震撼的是超級超級低的實時，無卡頓的多模態交互！只能說非常牛，小瑤灰常好奇究竟咋做到的，然后就去扒了下訓練背后的故事，結果！小瑤發現谷歌真正牛的是用來訓練 Gemini 2.0 的芯片 Trillium！即第 6 代 TPU，比上一代 TPU 5e 性能提升可以說非常非常顯著了！訓練效率提高 4 倍以上推理吞吐量提高 3 倍能源效率提高 67%每塊芯片的峰值計算性能顯著提升 4.7 倍高帶寬內存 (HBM) 容量加倍-芯片間互連 (ICI) 帶寬加倍單個 Jupiter 網絡結構中有 10 萬個 Trillium 芯片每美元可將訓練性能提高 2.5 倍，每美元可將推理性能提高 1.4 倍這些硬件上的進步都給 AI 訓練帶來了實打實的好處！包括了：擴展 AI 訓練工作負載訓練 LLM，包括密集模型和混合專家 (MoE) 模型推理性能和收集調度嵌入密集型模型提供訓練和推理性價比要讓像 Gemini 2.0 這樣的多模態大語言模型加速訓練，首先需要更大規模的數據和更強大的計算資源。Trillium 的技術可以視為一名超級助手：它將龐大而復雜的計算任務分散到眾多主機中，并通過高速 Jupiter 數據中心網絡緊密相連。這種協同工作就好像將 256 個芯片聚合成一個緊密合作的“大家族”。在加速訓練的過程中，Trillium 借助名為 “TPU 多切片（TPU multi-slicing）” 的技術，使得大規模訓練變得更加高效。與此同時，還有一個名為 “Titanium” 的系統，它能從主機適配器到網絡架構層面全面支持動態任務卸載，確保整個數據中心的運行更加順暢。在實際應用中，Trillium 在一個由 12 個這樣的“大家族”構成、共計 3072 個芯片的環境中，實現了 99% 的擴展效率；在一個更大的 24 個“家族”、共 6144 個芯片的部署中，也依然達到 94% 的擴展效率。這意味著，即便是在訓練如 GPT3-175b 這樣超大規模的模型時，無論是在單一數據中心還是跨數據中心環境中，Trillium 都能以極高的效率推動模型訓練進程。官方鏈接：https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga快來和小瑤一起來看看具體的提升！擴展效率大提升！如下圖所示，即使使用 1 片 Trillium-256 芯片的 Trillium-256 芯片艙作為基線，在擴展到 24 個芯片艙時，仍然能夠達到超過 90% 的擴展效率。在訓練 Llama-2-70B 模型時，谷歌測試表明，Trillium 從 4 片 Trillium-256 芯片艙擴展到 36 片 Trillium-256 芯片艙時，幾乎實現了線性擴展，擴展效率達到了 99%還有一個更直觀的看法就是，將 Trillium TPU 與 Google 前代產品（v5p）對比一下！在下面的圖表所示，在 12-pod 規模下，Trillium 的擴展效率達到了 99%，與同等規模的 Cloud TPU v5p 集群（總峰值浮點運算次數）相比遙遙領先。擅長訓練密集型和專家混合（MoE）模型！像 Gemini 這樣的大語言模型（LLM）本身就具有數十億個參數，先天強大且復雜。要高效訓練這些密集型的大模型，不僅需要雄厚的計算能力，還離不開軟硬件協同優化的解決方案。Trillium 在訓練諸如 Llama-2-70b 和 gpt3-175b 這類極其龐大的 LLM 時，相較于上一代 Cloud TPU v5e 能實現高達 4 倍的加速性能。如下圖所示：此外，除了傳統的“大模型”之外，采用專家混合（MoE）架構的大語言模型正日趨流行。這類架構由多個“專家”神經網絡組成，每個專家擅長處理特定的任務領域。然而，與訓練一個單一、龐大的模型相比，對這些專家進行有效協同與管理，無疑提高了訓練的復雜性。即便如此，Trillium 在訓練 MoE 模型時也依舊展現出強大的性能提升，如下圖所示，相比上一代 Cloud TPU v5e 能快上 3.8 倍。推理性能與調度優化大升級！面來越重要的多步推理（multi-step inference）需求，具有更高處理效率的加速器變得至關重要。Trillium 加速并優化了 AI 模型的部署，因此它在圖像擴散模型和密集型大語言模型的推理性能上均表現出色。如下圖所示，相較 Cloud TPU v5e，使用 Trillium 對 Stable Diffusion XL （SDXL）進行推理時，每秒圖像吞吐量提升超過 3 倍；在 Llama2-70B 的推理中，每秒 Token 吞吐量提升近 2 倍。嵌入密集型模型隨著第三代 SparseCore 的引入 Trillium ，其在處理嵌入密集型模型（embedding-heavy models）時的性能提升了 2 倍，在 DLRM DCNv2 模型上的性能更是提升了 5 倍。SparseCore 是為嵌入密集型工作負載打造的數據流處理器架構，能夠靈活適應多樣化的計算需求。它擅長處理動態且數據相關的操作，例如散布-收集（scatter-gather）、稀疏段求和（sparse segment sum）以及分區（partitioning），從而在動態數據環境中保持高效運轉。因此，Trillium 現在不僅在規模和性能上滿足訓練當今最大 AI 工作負載的需求，還注重優化每美元性能。在實際訓練中，相較于 Cloud TPU v5e，Trillium 在訓練密集型大語言模型（如 Llama2-70b 和 Llama3.1-405b）時，可實現高達 2.1 倍的性能提升；而與 Cloud TPU v5p 相比，則可獲得 2.5 倍的性能提升。在 Trillium 上生成 1000 張圖像的成本比 Cloud TPU v5e 離線推理降低 27%，比 Cloud TPU v5e 在 SDXL 上的服務器推理成本降低 22%。這意味著用戶可以在保證高性能的同時，以更合理的投入獲得更高的產出。結語在目前人工智能創新不斷攀升的時代，Trillium 再次證明了谷歌云在 AI 基礎設施領域的獨特優勢。相比之下，OpenAI 數次嘗試自研芯片卻碰壁收場，至今進度成謎。。。而谷歌不僅能擴展至數十萬顆芯片的龐大規模，更能借助軟硬件協同優化，讓 Trillium 成為行業新標桿。不得不說。。底蘊深厚的老牌大廠自有其過人之處，谷歌仍是那個讓人心服口服的科技巨頭！

閱讀原文