OpenAI史上最大故障:自研K8s成致命瓶頸,數(shù)小時(shí)修復(fù)無望!
OpenAI提到,在客戶感受到影響的“幾分鐘”內(nèi),公司就檢測(cè)到了該問題;但由于必須繞過不堪重負(fù)的Kubernetes服務(wù)器,因此無法快速實(shí)施修復(fù)。

原標(biāo)題:OpenAI 史上最長(zhǎng)宕機(jī):自研 K8s 成“攔路虎”,導(dǎo)致數(shù)小時(shí)無法修復(fù)
文章來源:AI前線
內(nèi)容字?jǐn)?shù):11311字
OpenAI服務(wù)中斷概述
根據(jù)Tina和核子可樂的報(bào)道,OpenAI旗下的ChatGPT、視頻生成工具Sora及其開發(fā)者API于太平洋時(shí)間12月11日下午3點(diǎn)發(fā)生嚴(yán)重的服務(wù)中斷。這一引發(fā)了廣泛關(guān)注,尤其是在OpenAI最近頻繁出現(xiàn)宕機(jī)的背景下。上個(gè)月,ChatGPT也曾因故障導(dǎo)致服務(wù)中斷近半小時(shí),影響超過19,000人。
經(jīng)過
事發(fā)當(dāng)天,OpenAI在下午3:12部署了一項(xiàng)新的遙測(cè)服務(wù),旨在收集Kubernetes控制平面的詳細(xì)指標(biāo)。然而,這項(xiàng)服務(wù)的配置意外導(dǎo)致每個(gè)節(jié)點(diǎn)執(zhí)行資源密集的Kubernetes API操作,最終使Kubernetes API服務(wù)器不堪重負(fù),導(dǎo)致多個(gè)服務(wù)出現(xiàn)嚴(yán)重降級(jí)甚至不可用。最終,所有服務(wù)于下午7:38才恢復(fù)正常。
根本原因分析
OpenAI的報(bào)告指出,新的遙測(cè)服務(wù)在大規(guī)模集群中產(chǎn)生了大量Kubernetes API負(fù)載,導(dǎo)致控制平面失效。盡管在登臺(tái)集群內(nèi)進(jìn)行了測(cè)試,但未能發(fā)現(xiàn)潛在問題。DNS緩存在故障初期起到了一定掩蓋作用,延遲了問題的發(fā)現(xiàn)。
補(bǔ)救措施與時(shí)間線
在確認(rèn)問題后,OpenAI迅速啟動(dòng)了多個(gè)工作流以恢復(fù)服務(wù),包括縮小集群規(guī)模和阻止新的高資源請(qǐng)求。最終,經(jīng)過多項(xiàng)措施的實(shí)施,恢復(fù)工作于晚上7:38完成。的時(shí)間線展示了從部署新服務(wù)到服務(wù)恢復(fù)的詳細(xì)進(jìn)程。
未來預(yù)防措施
為避免類似再次發(fā)生,OpenAI計(jì)劃實(shí)施多項(xiàng)預(yù)防措施,包括改進(jìn)登臺(tái)發(fā)布機(jī)制、進(jìn)行故障注入測(cè)試、確保應(yīng)急訪問Kubernetes控制平面、解耦Kubernetes數(shù)據(jù)平面與控制平面,以及加快恢復(fù)速度。這些措施旨在提高系統(tǒng)的可靠性和應(yīng)對(duì)突發(fā)的能力。
總結(jié)
OpenAI對(duì)因本次給客戶造成的影響表示深表歉意,承諾將致力于提高服務(wù)的可靠性,確保用戶在使用其產(chǎn)品時(shí)能夠獲得更好的體驗(yàn)。此次再次提醒了技術(shù)公司在基礎(chǔ)設(shè)施管理和服務(wù)可靠性方面的重要性。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號(hào)