在數據中心行業中,廣泛使用冗余設備來實現更高的系統可用性,通常要求其范圍為99.999%(5個9)。但是,所需的冗余級別取決于設備的可靠性。
例如,“N+1”冗余系統無法通過不可靠的系統組件獲得很高的可用性,而這些組件的同時故障可能性很高。可靠性會影響可用性,但是在數據中心經歷的停機和故障的事件中,可靠性和可用性并非同一回事。可靠性也會影響數據中心運營成本。更長的停機時間等于更多的維護和維修支出。
可靠性是指在規定的條件下,一個項目在規定的時間間隔內執行其預期功能的概率。關于可靠性,需要注意以下一些重要問題:
•數據中心是否使用以可靠性為中心的維護(RCM)概念來優化維護工作?
•是否完成了設備關鍵性分析?
•是否定期跟蹤平均故障間隔時間(MTBF)?
•是否優化了預防性維護(PM)計劃?
•是否跟蹤設備故障并相應地改進流程?
目標:最小化支出,并最大限度地提高可靠性
在當今競爭激烈的市場中,必須在不犧牲可靠性和正常運行時間的情況下將運營費用降至最低。許多數據中心僅根據OEM服務建議來開發其關鍵設備的服務范圍。盡管這可以產生足夠的結果,美國服務器,但通常不是最好的結果。很多時候,這些建議都是為了服務組織而不是最終用戶的最大利益。實際上,通常有更好的方法使用以可靠性為中心的維護(RCM)原則來提高可靠性,同時降低成本。
盡管已證明以可靠性為中心的維護(RCM)計劃是有效的,但它們可能成本昂貴,并且需要大量資源。它們涉及創建詳細的故障模式和影響分析(FMEA)以及填充決策工作表,這需要專業知識并且可能非常耗時。考慮到這一點,在數據中心內實施全面的以可靠性為中心的維護(RCM)程序通常并不劃算。相反,實施采用關鍵以可靠性為中心的維護(RCM)要素和有關常見故障模式的歷史信息的預防性維護(PM)優化程序是一種已在其他行業證明經濟有效的策略,并為數據中心采用提供了良好的模型。
下圖顯示了采用預防性和預測性維護策略的故障概率曲線(P-F曲線)。
P-F曲線是以可靠性為中心的維護(RCM)的基本原理,無需完成詳盡的分析即可成功應用。可以使用許多此類可靠性工具來顯著改善資產的狀況和使用壽命。
解決方案:實施可靠性計劃
2017年,數據中心運營商RagingWire公司決定為其數據中心實施可靠性計劃。該公司聘用了具有生產背景的可靠性工程師。
其最初的可靠性措施包括:
1.服務范圍
a. 開發81類相關設備。
b.輸入的是管理機構(IEEE、ANSI/NETA、ASHRAE、NFPA)的OEM建議和代碼。
c. 設備清單包括支持設備,站群服務器,如叉車、托盤升降機、電梯、防雷裝置、高架門、裝卸平臺、閥門和供水系統。
d.用于為所有設備創建任務列表,并在預防性維護(PM)計劃的計算機維護管理系統(CMMS)中設置。
2. 計算機維護管理系統(CMMS)
a.制定并記錄標準。
b.重新部署程序以未使用或不需要的信息。
c.添加了可靠性字段,例如故障、原因和維護代碼以及使用壽命。
d.輸入用于內部和外部工作活動的糾正性工作訂單。
e.在公司范圍內對實施的變更進行培訓。
f.為正在進行的年度培訓和新員工建立培訓矩陣。
g.建立一個每月舉行會議的咨詢團隊,以討論可改善該計劃的就業和變動。
h.創建詳細的用戶指南。
i.制定環境健康與安全(EHS)定期要求以確保達到要求。
3.可靠性
a.制定責任分配的路線圖。
b.建立了可靠性指導小組。
4.節省成本
a.成立了消減成本團隊,其中包括工程和運營人員。
b.采購團隊就主要設備和費用達成了協議。
c.利用服務范圍,每年可節省25萬美元。
5. 預防性維護(PM)
a.通過在線報告建立了柴油發電機和變壓器油的分析團隊。
b.通過故障模式和影響分析(FMEA)為關鍵設備實施的預防性維護(PM)優化流程
6.資產管理
a.定義資產并創建列表。
b.設備層次結構已定義。
c.確定設備關鍵性。
d.確定的維護策略:預防性維護(PM)、故障查找、重新設計、運行至故障。
7. 根本原因分析(RCA)
a.根據批準的政策和詳細程序開發程序。
b.選擇了根本原因分析(RCA)軟件來鞏固該過程。
c.對選定的工程和操作人員進行了培訓。
8.創建策略和文檔