計劃外的數(shù)據(jù)中心中斷通常很常見——比它們應(yīng)該的要普遍得多。對于運行該操作的管理員來說,數(shù)據(jù)中心故障既不方便又危險地昂貴。Uptime Institute 最近的一項調(diào)查估計,六分之一的數(shù)據(jù)中心遭受重大停機事件 的成本超過 100 萬美元。此外,48% 的數(shù)據(jù)中心中斷給運營商造成的損失在 100,000 美元到 100 萬美元之間。許多運營商沒有記錄他們經(jīng)歷的較小的數(shù)據(jù)中心故障,許多運營商甚至承認,通過提高基礎(chǔ)設(shè)施彈性,他們會遇到更少的此類事件。通過堅持適當?shù)木S護任務(wù)并遵循正確的日常運作程序,可以防止大多數(shù)數(shù)據(jù)中斷。通過關(guān)注發(fā)生故障的常見原因,數(shù)據(jù)中心經(jīng)理可以減少重大中斷的機會,從而節(jié)省時間和金錢。
數(shù)據(jù)中心失敗的 7 個常見原因
了解常見的數(shù)據(jù)中心故障場景是使您的數(shù)據(jù)中心免于災(zāi)難性中斷的第一步。經(jīng)常發(fā)生的事件包括:
1.備用電源不足: 數(shù)據(jù)中心出現(xiàn)故障的最常見原因是斷電。停電隨時可能發(fā)生。由于這種可能性,數(shù)據(jù)中心通常具有 額外的電源 ,以防它們的主要電源中斷。最常用的備用電源是發(fā)電機和電池。但是,當操作員沒有足夠頻繁地進行電源故障測試或更換電池時,就會出現(xiàn)問題。如果不采取必要的預(yù)防措施,您的備用電源可能在您需要時無法使用。
2.一次更改和更新太多: 管理員可能會發(fā)現(xiàn)在維護窗口期間進行盡可能多的更改以最大限度地提高未來進度是很有誘惑力的。但是,當短期內(nèi)安排的任務(wù)過多時,管理員可能會急于完成任務(wù)以彌補時間上的不足。這樣做會導(dǎo)致可避免的錯誤。此外,通過一次實施太多更改,您將無法注意到哪些更改正在實際工作,從而使將來的故障排除變得更加困難。
3.維護窗口之外的更改: 有時可能會收到一個小的更改請求,并且您覺得可以在正式的數(shù)據(jù)中心更改流程之外輕松進行。通常情況下,它可以。然而,有時一個小的修改可能會產(chǎn)生巨大的影響,這可能會給數(shù)據(jù)中心的其他部分帶來災(zāi)難性的后果。不遵循更新協(xié)議可能會導(dǎo)致數(shù)據(jù)中心出現(xiàn)意外中斷和巨額資金損失。
4.囤積舊硬件: 雖然所有硬件都可能在某個時候發(fā)生故障,但您保留舊設(shè)備的時間越長,它發(fā)生故障的可能性就越大。這些知識并不總是阻止關(guān)鍵數(shù)據(jù)中心應(yīng)用程序由于它們在過時的系統(tǒng)上運行而出現(xiàn)故障。管理員必須確保他們隨時了解技術(shù)的更新和改進,以避免使用舊系統(tǒng)。
5.濕滅火系統(tǒng): 數(shù)據(jù)中心最重要的設(shè)備可能會被水嚴重損壞。因此,大多數(shù)數(shù)據(jù)中心使用非水滅火系統(tǒng)。如果消防系統(tǒng)被觸發(fā),非水滅火系統(tǒng)可防止設(shè)備損壞。盡管存在這種安全的解決方案,但許多較舊的數(shù)據(jù)中心仍在使用濕滅火系統(tǒng),這使他們的設(shè)備面臨損壞和重大中斷的風險。
6.冷卻故障: 由于數(shù)據(jù)中心產(chǎn)生大量熱量, 有效的冷卻解決方案 對于防止設(shè)備過熱或縮短使用壽命至關(guān)重要。如果您的冷卻解決方案不能按預(yù)期工作,您的數(shù)據(jù)中心可能會遇到不穩(wěn)定的溫度——它可能前一分鐘結(jié)冰,下一分鐘發(fā)出咝咝作響。未能實施備份冷卻程序并正確維護您當前擁有的冷卻程序可能會導(dǎo)致數(shù)據(jù)中心的生產(chǎn)力受到影響。
7.網(wǎng)絡(luò)安全威脅: 網(wǎng)絡(luò)威脅,包括網(wǎng)絡(luò)釣魚和勒索軟件攻擊,是導(dǎo)致數(shù)據(jù)中心停機的最危險原因之一。網(wǎng)絡(luò)攻擊者可以利用您組織內(nèi)的弱點并訪問您的敏感數(shù)據(jù),從而暴露重要信息并危及您的業(yè)務(wù)。
克服這些障礙的方法
您不必接受數(shù)據(jù)中心和網(wǎng)絡(luò)中斷作為您設(shè)施中的常規(guī)事件。通過適當?shù)墓芾砗鸵韵骂A(yù)防措施,您可以顯著減少停機并最大限度地提高生產(chǎn)力:
1.最大限度地減少人為錯誤: 人為錯誤約占 計劃外停機的 22%。缺乏經(jīng)驗可能會導(dǎo)致日常數(shù)據(jù)中心運營出現(xiàn)重大問題。通過為數(shù)據(jù)中心員工進行定期培訓(xùn)和認證計劃,以確保您的團隊了解最佳實踐,從而領(lǐng)先一步。這樣做可以提高他們的技能,并為職業(yè)發(fā)展提供途徑。另一種控制人為錯誤的方法是提供并記錄完成復(fù)雜任務(wù)的分步指導(dǎo)。有了明確的指導(dǎo)方針,您的團隊可以提供更一致的工作質(zhì)量。
2.為您的數(shù)據(jù)中心做好應(yīng)對惡劣天氣的準備: 自然災(zāi)害是不可避免的,但采取適當?shù)念A(yù)防措施可以最大限度地減少中斷的潛在影響。確保您的設(shè)施有一個 惡劣天氣應(yīng)急計劃 ,并定期測試您的備用電源,以確保它們在您需要時能夠正常工作。
3.防止設(shè)備故障: 對您的硬件進行定期檢查,以確保其處于良好的工作狀態(tài)。用更強大和更高效的機器替換過時的設(shè)備。一臺有故障的機器可能是您數(shù)據(jù)中心的單點故障,但如果處理不當,可能會對整個設(shè)施產(chǎn)生影響。
4.投資不間斷電源 (UPS): UPS 可以在最壞的情況下為您提供浪涌保護電源,讓您的數(shù)據(jù)中心在您需要的時間內(nèi)保持正常運行。此外,請始終檢查您的 UPS 是否有故障跡象或其他問題 - 25% 的數(shù)據(jù)中心停機時間可歸因于 UPS 故障。
5.考慮與信譽良好的數(shù)據(jù)中心進行托管: 托管公司的設(shè)計具有冗余電源功能和強大的冷卻系統(tǒng)。將您的服務(wù)器和網(wǎng)絡(luò)機器與另一個設(shè)施托管在一起有很多 好處 ,包括更好的正常運行時間可靠性、增強的安全性和對混合云服務(wù)的訪問。