云應用程序通常在可靠的正常運行時間方面贏得了良好的聲譽。但是,通過持續(xù)測試可用性和響應時間來監(jiān)控您的云托管系統(tǒng)和應用程序仍然很重要。這四個監(jiān)控技巧可以幫助您依靠云。
云服務提供商通常會提供三個 9 或更好的正常運行時間,但確實會發(fā)生中斷。即使主要參與者在 Web 架構中內置了所有冗余和其他保護措施,他們的系統(tǒng)仍然會因各種故障而癱瘓。這里有一些例子:
- 過期的 SSL 證書導致大多數(shù) Microsoft Azure 用戶的加密存儲流量在全球范圍內中斷 12 小時(對于某些用戶,則為 24 小時中斷)。
- 一個內部 DNS 錯誤導致 Apple 每小時損失 200 萬美元,而其應用商店、iTunes 和其他服務出現(xiàn)故障。
- 數(shù)據(jù)中心虛擬網絡故障導致 Google Compute Engine 中斷了 2 小時 40 分鐘。
無聲的減速會削弱生產力和銷售
中斷不應該是您對云服務的唯一關注。減速可能與用戶中斷的行為相同 - 更糟糕的是,在用戶抱怨之前,它們很容易被忽視。或者他們可能不會抱怨,并且經常性的生產力損失或銷售來源將不會被發(fā)現(xiàn)。
例如,如果您的銷售人員使用基于云的 CRM 系統(tǒng)登錄需要 15 秒,那么您需要知道。本質上,你付錢讓人們等待。如果您的購物車在 8 秒內沒有提供完全填充的響應,那么對于大多數(shù)潛在買家來說,該系統(tǒng)就像停機一樣好。
不要讓這些減速沒有被發(fā)現(xiàn)。監(jiān)控云應用程序可能很棘手,但您的云應用程序的持續(xù)性能和歷史記錄應該在您的網絡管理儀表板上與其他關鍵系統(tǒng)具有相同級別的可見性。應用程序性能管理工具APM允許開發(fā)團隊主動監(jiān)控和改進應用程序性能。APM 工具(例如Stackify Retrace)提供代碼級洞察以及集成日志記錄,以識別 QA 中的更多問題并持續(xù)觀察生產環(huán)境中的應用程序。
監(jiān)控云主機應用
除了驗證您的云應用程序的當前可用性之外,您的監(jiān)控工具還應該自動跟蹤這些元素:
- 事務步驟:如果需要按順序執(zhí)行多個步驟(初始身份驗證、數(shù)據(jù)庫調用、中間件步驟等),請確認這些步驟中的任何一個步驟是否處于非活動狀態(tài)或緩慢。如果是這樣,您應該能夠確定故障元素對整體可用性的影響。
- 延遲:如果網絡延遲嚴重影響基于 Web 的應用程序,您需要跟蹤該延遲并盡可能跟進以解決問題。延遲尤其會導致移動用戶的服務延遲,因此如果該平臺對您的業(yè)務至關重要,您需要能夠一眼看出延遲是否會造成或加劇服務問題。
- 響應時間警報:設置頁面加載時間的警報級別,對于許多應用程序,響應速度低于 1.5 – 2 秒意味著服務已嚴重受損。
- 服務器/網絡計時:如果您看到的有關云環(huán)境性能的數(shù)據(jù)不夠精細,您可能不知道服務問題是否與網絡問題、服務器配置甚至頁面或腳本設計有關。
擁有讓云服務提供商承擔責任所需的數(shù)據(jù)
了解基于云的系統(tǒng)的實時狀態(tài)可以讓您有時間為即將發(fā)生的中斷的影響做好準備。您可能能夠采取糾正措施,或者至少與受影響的用戶進行溝通,以便他們了解問題并采取相應措施。
能夠一目了然地查看歷史信息并生成報告以記錄它,這一點也很重要。有了這些數(shù)據(jù),您就可以讓您的服務提供商承擔責任。如果他們沒有達到他們承諾的服務水平要求,您需要向他們展示正在發(fā)生的事情。
如果您已經完成了將裸機服務遷移到云的艱苦工作,您可能已經看到正常運行時間增加了,這很好。但云在 IT 系統(tǒng)基礎設施中的作用顯著增加,可能會產生更多的復雜性和更多的服務問題。通過徹底監(jiān)控云托管的應用程序,立即為處理新出現(xiàn)的云服務問題做好準備。