AWS近日披露了關(guān)于《Amazon EC2 以及 Amazon EBS 在東京區(qū)域 (AP-NORTHEAST-1) 的服務(wù)事件》的說明,以下為披露的原文,供各位參考。
針對(duì)在東京區(qū)域 (AP-NORTHEAST-1) 的服務(wù)中斷事件,我們在這里提供更多信息。從 2019 年 8 月 23 日 11:36 AM CST (中國標(biāo)準(zhǔn)時(shí)間)開始,一小部分的 EC2 服務(wù)器在東京 (AP-NORTHEAST-1) 區(qū)域中單一可用區(qū) (Availability Zone) 由于服務(wù)器過熱造成停機(jī)。這導(dǎo)致在該可用區(qū)中受到影響的 EC2 實(shí)例與 EBS 卷效能降低。造成服務(wù)器過熱的原因是控制系統(tǒng)故障,造成受影響的可用區(qū)的部分冷卻系統(tǒng)失效。
受到影響的冷卻系統(tǒng)已經(jīng)在 2:21 PM CST (中國標(biāo)準(zhǔn)時(shí)間)修復(fù),服務(wù)器溫度也恢復(fù)到正常狀態(tài)。在溫度恢復(fù)正常后,EC2 實(shí)例的電源供應(yīng)也已恢復(fù)。
在 5:30 PM CST (中國標(biāo)準(zhǔn)時(shí)間) ,大部分受影響的 EC2 實(shí)例與 EBS 卷都恢復(fù)正常工作,但仍有一小部分的實(shí)例與卷因?yàn)檫^熱與斷電暫時(shí)無法修復(fù),因?yàn)榈讓佑布墓收希渲杏行?shí)例與卷需要更多的時(shí)間進(jìn)行修復(fù)。
除了 EC2 實(shí)例與 EBS 卷受到影響外,在 12:21 PM CST (中國標(biāo)準(zhǔn)時(shí)間) EC2 RunInstances API 也受到了影響。在受影響的可用區(qū)中,嘗試啟動(dòng)新的 EC2 實(shí)例和和嘗試使用 RunInstances API 的 "idempotency token" 功能 (一個(gè)允許用戶啟動(dòng)新的實(shí)例時(shí)重試而不會(huì)產(chǎn)生多余的實(shí)例的功能)時(shí),服務(wù)器租用,也有發(fā)生錯(cuò)誤。其他沒有調(diào)用 "idempotency token"的 API 則可正常運(yùn)作。
這個(gè)事件也導(dǎo)致透過 "idempotency token" 使用 Auto Scaling 時(shí),無法啟動(dòng)新實(shí)例。
后臺(tái)團(tuán)隊(duì)已經(jīng)于 1:51 PM CST (中國標(biāo)準(zhǔn)時(shí)間) 修復(fù)了 “idempotency token” 與 Auto Scaling 相關(guān)的問題。并且于 3:05 PM CST(中國標(biāo)準(zhǔn)時(shí)間)在受影響的可用區(qū)中,修復(fù)了EC2 控制面板的子系統(tǒng),開啟新實(shí)例的功能已經(jīng)可以正常工作。但在本事件中受到影響的卷所建立的新快照 (Snapshot) 依舊有一定的錯(cuò)誤率。
本次事件是由于數(shù)據(jù)中心負(fù)責(zé)控制和優(yōu)化冷卻的控制系統(tǒng)故障所造成,這個(gè)控制系統(tǒng)在多個(gè)主機(jī)都有部署以實(shí)現(xiàn)高可用性,本控制系統(tǒng)中包含了允許與風(fēng)扇、冷卻器和溫度傳感器等硬件組件相互傳遞信號(hào)的第三方的程序,該程序可以直接或透過 Programmable Logic Controllers (PLC) 來與實(shí)際的硬件組件溝通。
在這事件發(fā)生前,數(shù)據(jù)中心的控制系統(tǒng)正在為了其中一臺(tái)失效的控制主機(jī)進(jìn)行備份處理,在備份處理中,控制系統(tǒng)要彼此互相交換信號(hào) (例如:冷卻裝置與溫度傳感器交換信號(hào))以保持最新的信息。由于該第三方程序中的一個(gè)錯(cuò)誤,導(dǎo)致控制系統(tǒng)與組件過度的進(jìn)行信息交換而造成控制系統(tǒng)無法回應(yīng)。
我們的數(shù)據(jù)中心被設(shè)計(jì)成一旦控制系統(tǒng)發(fā)生錯(cuò)誤,冷卻系統(tǒng)就會(huì)自動(dòng)進(jìn)入最冷的模式,直到控制系統(tǒng)恢復(fù)正常為止,這樣的設(shè)計(jì)對(duì)于我們大部分的數(shù)據(jù)中心都是有效的,但有一小部分的數(shù)據(jù)中心,由于冷卻系統(tǒng)無法正確進(jìn)入安全降溫模式,而造成系統(tǒng)關(guān)機(jī)。我們的數(shù)據(jù)中心加入了安全防護(hù)設(shè)計(jì),在控制系統(tǒng)故障時(shí),可以略過控制系統(tǒng),直接進(jìn)入凈空模式將數(shù)據(jù)中心中的熱空氣迅速排出,但控制中心的團(tuán)隊(duì)在啟動(dòng)凈空模式時(shí)發(fā)生了故障,所以數(shù)據(jù)中心的溫度才會(huì)持續(xù)攀升,而服務(wù)器在到達(dá)溫度上限后也開始自動(dòng)關(guān)機(jī)了。由于數(shù)據(jù)中心的控制系統(tǒng)故障,維運(yùn)團(tuán)隊(duì)無法得知數(shù)據(jù)中心冷卻系統(tǒng)的即時(shí)信息,在進(jìn)行故障排除時(shí),團(tuán)隊(duì)必須要對(duì)所有組件進(jìn)行逐一的人工檢查,才能讓控制系統(tǒng)進(jìn)入最冷模式,在這故障排除的過程中,發(fā)現(xiàn)控制空調(diào)組件的 PLC 控制器無法回應(yīng),控制器需要進(jìn)行重置,是 PLC 控制器的錯(cuò)誤造成了預(yù)設(shè)的冷卻模式與凈空模式無法正確動(dòng)作,在 PLC 控制器被重置之后,該可用區(qū)數(shù)據(jù)中心的冷卻系統(tǒng)就可以正常工作了,而數(shù)據(jù)中心的過高的溫度也開始慢慢降低。
我們?nèi)栽谂c第三方供應(yīng)商合作以了解導(dǎo)致控制系統(tǒng)和受影響的 PLC 無響應(yīng)的錯(cuò)誤和后續(xù)交互。 在此期間,我們已禁用在我們的控制系統(tǒng)上觸發(fā)此錯(cuò)誤的故障轉(zhuǎn)移模式,以確保我們不會(huì)再次出現(xiàn)此問題。 我們還培訓(xùn)了我們的本地運(yùn)營團(tuán)隊(duì),以便在發(fā)生這種情況時(shí)快速識(shí)別和修復(fù)這種情況,并且我們相信,如果再次發(fā)生類似情況,無論什么原因,我們可以在客戶受影響之前重置系統(tǒng)。 最后,我們正在努力修改我們控制受影響的空氣處理單元的方式,以確保“清除模式”能夠完全繞過PLC控制器。 這是我們在最新的數(shù)據(jù)中心設(shè)計(jì)中開始使用的一種方法,即使 PLC 無響應(yīng),歐洲服務(wù)器租用,我們也會(huì)更加確信“清除模式”將起作用。
在這次事件中,EC2 實(shí)例以及 EBS 儲(chǔ)存在同一區(qū)域的其它的可用區(qū)沒有受到影響。同時(shí)在多個(gè)可用區(qū)上充分執(zhí)行他們的應(yīng)用程序的客戶,在這次的事件中依然可以維持服務(wù)可用。對(duì)于需要絕對(duì)高可用的客戶,我們持續(xù)建議您使用高可用性的架構(gòu)設(shè)計(jì)。任何與應(yīng)用程序相關(guān)的元件都應(yīng)該采用這種容錯(cuò)設(shè)計(jì)。