国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI史上最大故障：自研K8s成致命瓶頸，數(shù)小時(shí)修復(fù)無望！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

278 0 0

OpenAI提到，在客戶感受到影響的“幾分鐘”內(nèi)，公司就檢測(cè)到了該問題；但由于必須繞過不堪重負(fù)的Kubernetes服務(wù)器，因此無法快速實(shí)施修復(fù)。

OpenAI史上最大故障：自研K8s成致命瓶頸，數(shù)小時(shí)修復(fù)無望！

原標(biāo)題：OpenAI 史上最長(zhǎng)宕機(jī)：自研 K8s 成“攔路虎”，導(dǎo)致數(shù)小時(shí)無法修復(fù)
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：11311字

OpenAI服務(wù)中斷概述

根據(jù)Tina和核子可樂的報(bào)道，OpenAI旗下的ChatGPT、視頻生成工具Sora及其開發(fā)者API于太平洋時(shí)間12月11日下午3點(diǎn)發(fā)生嚴(yán)重的服務(wù)中斷。這一引發(fā)了廣泛關(guān)注，尤其是在OpenAI最近頻繁出現(xiàn)宕機(jī)的背景下。上個(gè)月，ChatGPT也曾因故障導(dǎo)致服務(wù)中斷近半小時(shí)，影響超過19,000人。

經(jīng)過

事發(fā)當(dāng)天，OpenAI在下午3:12部署了一項(xiàng)新的遙測(cè)服務(wù)，旨在收集Kubernetes控制平面的詳細(xì)指標(biāo)。然而，這項(xiàng)服務(wù)的配置意外導(dǎo)致每個(gè)節(jié)點(diǎn)執(zhí)行資源密集的Kubernetes API操作，最終使Kubernetes API服務(wù)器不堪重負(fù)，導(dǎo)致多個(gè)服務(wù)出現(xiàn)嚴(yán)重降級(jí)甚至不可用。最終，所有服務(wù)于下午7:38才恢復(fù)正常。

根本原因分析

OpenAI的報(bào)告指出，新的遙測(cè)服務(wù)在大規(guī)模集群中產(chǎn)生了大量Kubernetes API負(fù)載，導(dǎo)致控制平面失效。盡管在登臺(tái)集群內(nèi)進(jìn)行了測(cè)試，但未能發(fā)現(xiàn)潛在問題。DNS緩存在故障初期起到了一定掩蓋作用，延遲了問題的發(fā)現(xiàn)。

補(bǔ)救措施與時(shí)間線

在確認(rèn)問題后，OpenAI迅速啟動(dòng)了多個(gè)工作流以恢復(fù)服務(wù)，包括縮小集群規(guī)模和阻止新的高資源請(qǐng)求。最終，經(jīng)過多項(xiàng)措施的實(shí)施，恢復(fù)工作于晚上7:38完成。的時(shí)間線展示了從部署新服務(wù)到服務(wù)恢復(fù)的詳細(xì)進(jìn)程。

未來預(yù)防措施

為避免類似再次發(fā)生，OpenAI計(jì)劃實(shí)施多項(xiàng)預(yù)防措施，包括改進(jìn)登臺(tái)發(fā)布機(jī)制、進(jìn)行故障注入測(cè)試、確保應(yīng)急訪問Kubernetes控制平面、解耦Kubernetes數(shù)據(jù)平面與控制平面，以及加快恢復(fù)速度。這些措施旨在提高系統(tǒng)的可靠性和應(yīng)對(duì)突發(fā)的能力。