沒人愿意想到自己的技術會失效。但當您的業務處于危險之中時,這正是您應該考慮的問題。在基礎設施領域,有一個普遍的真理。技術會失效。如果還沒有失效,那只是時間問題。
因此,無論您為托管支付多少費用,都建議建立一個內置安全網,以防出現問題。
在本博客中,我們討論了什么是服務器冗余,并分享了四種在基礎設施生態系統中改善冗余的方法。從服務器內冗余開始,一直到全面的災難恢復,我們將提供一些關于如何降低服務器故障風險并實現基礎設施彈性的技巧。
什么是服務器冗余?
服務器冗余意味著建立冗余系統以防止數據丟失和/或服務器故障。例如,通過設置一個或多個備份服務器來支持主服務器。如果主服務器發生故障,冗余服務器將接管,以便您的網站或應用程序保持在線。
如何通過 4 個步驟改善服務器冗余
1.服務器內冗余
人們普遍誤以為選擇最先進的數據中心就足以保證基礎設施的穩固。實際上,服務器冗余更多地取決于單個服務器設置的設計。
安裝RAID(獨立磁盤冗余陣列)是平臺可以采取的最簡單的措施之一,可以提高其基礎設施堆棧的彈性。RAID 是一種數據存儲系統,可以在軟件或硬件級別實施,以提供冗余和性能優勢。
有許多不同的 RAID 級別可供選擇(RAID 0、1、5、6 和 10 是最常用的)。所有 RAID 級別都是通過將數據存儲在多個驅動器上來工作的,但方法各不相同。由于這些差異,特定的 RAID 級別將更適合某些工作,具體取決于應用程序的個別要求。
有關不同 RAID 級別的更多信息,您可以查閱下表。
使用在線RAID 計算器可以幫助您進行 RAID 規劃,讓您根據輸入的 RAID 參數(磁盤數量、單個磁盤大小、RAID 類型)計算存儲陣列的容量、速度增益和容錯能力。
提高服務器內冗余度的其他因素包括:
- 雙電源 (PSU)。顧名思義,這意味著您的服務器上有兩個電源。因此,如果一個電源發生故障,另一個可以接管。
- 投資于更強大的網絡冗余。在服務器上激活額外的網絡交換機可確保如果一個交換機發生故障,冗余交換機可接管并且網絡仍可正常運行。
即使是高性能服務器也需要內置冗余。結合所有這些措施將使單個服務器盡可能地冗余。但是,為了進一步增加冗余,企業需要以備份的形式提供超出單個服務器的額外容量。
2.備份
為了實現更高級別的基礎設施冗余,單個服務器上的數據應備份到單獨的備份服務器或存儲設備中。備份服務器可以位于同一個數據大廳、不同的數據大廳或物理上不同的位置(輔助站點)。
分別地,每個選項都提供了更高級別的冗余。
備份服務器或存儲設備應持續更新(每小時、每天、每周),并形成應用程序數據的副本。如果主服務器出現故障,備份服務器或存儲設備上會有該數據及其版本歷史記錄的安全副本。
備份可防止服務器級別的物理故障、開發人員的錯誤以及(在二級站點備份的情況下)數據大廳內火災等環境威脅。但是,即使備份到位,事故發生后應用程序也可能需要數周時間才能恢復在線狀態。
3.多服務器彈性
一些平臺選擇使用多個專用服務器來處理其彈性。在這些情況下,在兩個或多個應用程序服務器之間放置負載平衡器將有助于提高服務器冗余度。
負載平衡將流量分配到多個服務器,因此如果其中一個服務器出現故障,則另一個服務器可以保持網站或應用程序的運行。負載平衡器使應用程序能夠擴展到單個服務器的容量之外。
相比之下,如果您希望提高數據庫軟件的彈性,則需要配置額外的數據庫服務器作為高可用性 (HA) 主動-被動對。主動-被動可用性意味著數據庫有一個可以處理請求的主動節點和一個可以在災難中接管的熱備用節點。
4.災難恢復規劃
無論您的基礎設施是由最便宜還是最昂貴的提供商托管,位于評級最差還是最高的數據中心,如果您真的想降低風險,就應該制定災難恢復計劃。
災難恢復計劃是組織為處理意外事件而制定的正式程序。基礎設施災難恢復計劃將包括處理緊急情況的措施,例如物理建筑物損壞、網絡攻擊、服務器故障、硬件故障和其他硬件問題。
創建災難恢復計劃時,有兩個關鍵參數。它們是恢復時間目標 (RTO) 和恢復點目標 (RPO)。
- RTO:這是衡量應用程序在對企業造成重大損害之前可以停機的“實際時間”的指標。這是企業在沒有基礎設施的情況下可以生存多久的閾值。關鍵任務應用程序的 RTO 非常短,而不太重要的應用程序通常可以承受較長的 RTO。
- 要計算您的 RTO,您需要確定您的企業可以承受多少停機時間、系統恢復的預算以及實現完整系統恢復所需的工具。
- RPO:這是企業在意外事件發生后可以承受的最大數據丟失量的時間度量。RPO 實際上是可接受的最大數據丟失量,以自最近一次可靠數據備份以來經過的時間來衡量。
大型組織通常需要從故障點進行備份。要計算您的 RPO,您需要確定關鍵數據的更新頻率、備份頻率以及備份的存儲容量。
沒有人愿意考慮最壞的情況,甚至更少有人愿意為可能發生或可能不會發生的服務器故障付費。正因為如此,許多組織忽視了災難恢復規劃。但即使是最好的技術也容易出現故障,因此 RTO 和 RPO 都是確保意外事件后快速恢復的關鍵。
做好最壞的打算——你不會后悔的
提前規劃可防止性能不佳。這也適用于您的基礎設施。無論我們是否喜歡,硬件問題都會出現,服務器故障會發生,環境危害也存在。
采取措施改善基礎設施冗余意味著當最壞的情況發生時,您將擁有足夠的資源來保持您的網站或應用程序在線。