隨著云計算的興起,數據中心不僅繼續生存,而且在新的化身中與混合和多云系統一起蓬勃發展,例如本地即服務。不僅如此,數據中心還準備滿足對與邊緣計算、物聯網和 5G 等新興技術相關的服務的新興需求。由于終端用戶計算 (EUC) 和移動解決方案中的這些新應用和新興需求,數據中心變得越來越復雜,導致更多內部和外部風險。停機是一種持續存在的風險,單個事件的最高損失為每分鐘 11,000 美元。
?
以下是企業可以采取哪些措施來識別和降低數據中心運營中的風險。
1. 采用綜合的風險管理方法
2021 年 2 月德克薩斯州創紀錄的冬季風暴和隨后的停電被證明是對該州數據中心的現實檢驗。雖然沒有出現大規模故障,但電氣故障轉移系統存在重大問題。
從功能的角度來看,數據中心是運行關鍵業務應用程序的物理設施,而從業務的角度來看,它們是需要預算和管理的不動產或資本資產。
關鍵是,單點故障可能(并且經常會)對運營造成巨大中斷,從而導致收入損失。這就是為什么您需要一個適用于整個組織的普遍風險管理計劃和政策。
這就是集成風險管理 (IRM) 的用武之地。 Gartner 將 IRM 定義為“由風險意識文化和支持技術支持的一組實踐和流程,這些技術通過對組織如何管理其管理的綜合視圖來改進決策和績效。一組獨特的風險。”
在大流行后的世界中,實施遠程工作、BYOD、CYOD 和其他工作場所實踐變化的企業正在將其數字化轉型戰略與 IT 基礎設施升級相結合,以識別、容忍和減輕自然災害、供應鏈、數據處理引起的風險,以及那些固有的商業模式。
如果您正處于數字化轉型的中間,您需要監控可能影響您的數據中心的每個流程和因素(外部或內部),并準備好應對由單個或多個同時發生的事件引起的多種風險。
數字化轉型不僅適用于嚴重依賴數據或技術的企業或組織——它同樣適用于大流行后工作場所中的中小型企業,包括那些開始使用公共云作為數據中心替代品的中小型企業。
甚至聯邦政府也在認真對待數字化轉型——改造數據中心基礎設施以利用云技術是他們的兩個核心目標之一(改善在線用戶體驗是另一個目標)。
“數據中心優化是聯邦信息技術收購改革法案中記分卡的關鍵衡量標準。這種衡量在一定程度上反映了機構基礎設施利用云的程度,”數字轉型專家杰夫舒帕克說,他在通過精益敏捷實施降低全球資本計劃的風險方面擁有 15 年的實踐經驗。
組織正在意識到敏捷方法、大數據分析、移動解決方案和 DevOps 與可靠和升級的數據中心協同工作,以實現高效的風險預防、充分的風險響應和快速的災難恢復。因此,他們轉向框架,使這些最佳實踐能夠在混合 IT 基礎設施中實施,以確保業務連續性、降低運營成本并改善數字客戶體驗。
2. 了解您的風險
無論您的風險管理計劃多么全面,它的發展速度都不會超過技術。新技術和新的工作實踐比以往任何時候都更加復雜。讓我們快速了解一下數據中心面臨的不同類型的風險。
IT 安全性不足
網絡安全漏洞可以說是當今數據中心面臨的最大風險,范圍從 DoS 攻擊到社會工程再到數據盜竊。2021 年數據泄露的平均成本為 424 萬美元,為 17 年來最高。應用程序和系統故障也會對物理安全方面產生影響,導致無法驗證 ID 卡、CCTV 連接丟失或授權人員被拒絕進入某些區域的情況。
系統錯誤
如果沒有彈性架構和連續、冗余和高帶寬的連接,數據中心就注定失敗。服務器、網絡設備和相關設備都需要集群、鏡像和復制等功能,以減少停機的機會。有時,應用程序或軟件(例如管理程序)會啟動并關閉整個服務器或網絡。您需要確保所有應用程序在混合基礎架構中無縫運行,并與云原生應用程序通信。
電源(檢測)失敗
盡管極為罕見,但斷電可能并且確實發生——主要是自然災害的后果。您需要為數據中心的所有機架和冷卻系統提供 UPS 或發電機支持的電源路徑。直接連接到多變電站電網有助于對沖本地變電站的停電。
漏水
洪水或滲水可能會給數據中心設備帶來厄運。然而,維護良好的水路和排水系統對于消防和冷卻系統至關重要。
高分貝噪音
數據中心的一個鮮為人知但顯著的風險是長時間暴露在響亮的高頻聲音振動中,這會降低存儲系統的效率,降低讀/寫性能,并最終影響數據完整性。數據中心應遠離競技場、消防站、機場等,并安裝在使用聲學抑制技術的建筑物內。
火
電力峰值和短路是數據中心火災的常見原因。如果不迅速控制,火災可能會在幾分鐘內燒毀價值數千美元的硬件。具有諷刺意味的是,空調和冷卻系統會驅散煙霧,使早期發現火災變得更加困難。使用帶有光電傳感器的煙霧探測系統來持續監測數據中心內的空氣是否有煙霧跡象。
災難恢復規劃不完善
雖然如今數據備份是一個非常簡單的過程,但出于安全和性能方面的考慮,數據中心比公共云更受歡迎——您希望在系統出現故障時立即恢復交易數據。當然,這取決于業務性質和其所屬的監管框架等因素。更有理由為每個不同的故障事件制定明確的恢復計劃;計算、存儲或網絡資源也是如此。最先發制人的災難恢復計劃都有監控系統,可以跟蹤影響數據中心的風險因素,并在超過關鍵閾值時發出警報。
3. 在管理之前評估風險
所有風險(如企業)并非生來平等。雖然數據中心面臨著自己獨特的風險,尤其是對于不同的垂直行業,但您最終使用的風險緩解技術不一定適合數據中心環境。因此,您需要一個風險管理計劃,列出您的數據中心面臨的所有可以想象的風險,并指定對每種類型事件的響應。在它發生之前。
首先進行風險審計——對您擁有和運營的所有設施進行全面評估。評估影響設施設計、IT 基礎設施和運營流程的因素。
如果過去發生過重大事件或中斷,請進行根本原因分析(如果仍有可能)以解決您未涵蓋的任何差距。您可以做些什么來確保類似情況下不會再次出現停機?
此外,如果您運行具有多個數據中心和云系統的混合架構,請單獨審核每個中心以及它們之間的數據路徑和連接。如果您在金融和醫療保健等監管嚴格的行業運營,您需要將定期數據中心風險評估和災難測試作為日常運營的一部分。與其他所有事情一樣,創建框架、政策或備忘單(至少)可以提供適用于您的風險類別、每個類別影響的系統、估計的損壞和恢復成本以及發生事故或災難時應遵循的協議。
例如,IT 咨詢公司 Capgemini 采用不斷發展的風險管理方法,識別和量化風險及其緩解成本。“我們已經建立了一個月度風險管理系統,記錄所有風險和問題以及遏制和行動計劃。如果需要更改,可以提供投資預算,”凱捷高級交付中心經理Kevin Read 說。
減少停機時間
數據中心——甚至公司的整個 IT 基礎設施——永遠不會孤立運行。有無數的組件和因素可以使數據中心全天候運行。IT 基礎設施的風險緩解是一項共同的責任,而不僅僅是 CIO 或 CTO。您需要有足夠數量的受過培訓的 IT 員工,他們愿意盡一切努力掌控數據中心運營。將向您提供Tenable 產品營銷副總裁Gavin Millard的一條建議:“相互沖突的目標可能很難解決,但最有效的方法之一是擁有一個高效的流程來持續識別風險所在。您還需要一種可預測、可靠的方法來更新系統,而不會影響組織的總體業務目標。”