如今,企業(yè)采納各類(lèi)法子不讓意外停機(jī)時(shí)間間斷其數(shù)據(jù)中心業(yè)務(wù)。而舉辦電源輪回測(cè)試,以主動(dòng)監(jiān)控系統(tǒng)并以有條不紊,有序的方法識(shí)別硬件妨礙是一種很好的法子。
由于在數(shù)據(jù)中心日常操縱期間大概不會(huì)利用IT系統(tǒng)的所有部門(mén),因此IT組件大概會(huì)失效或軟件模塊大概瓦解,但系統(tǒng)大概會(huì)正常運(yùn)行數(shù)月甚至數(shù)年。在系統(tǒng)從頭啟動(dòng)(凡是意外)之前,妨礙大概無(wú)法顯示,從而導(dǎo)致意外的事情負(fù)載間斷和停機(jī)時(shí)間。而企業(yè)需要通過(guò)周期性電源輪回測(cè)試,以識(shí)別大概呈現(xiàn)的問(wèn)題并主動(dòng)辦理問(wèn)題。
假如沒(méi)有看到任何問(wèn)題,為什么要執(zhí)行電源輪回測(cè)試?
數(shù)據(jù)中心所回收的系統(tǒng)打點(diǎn)東西包羅MicrosoftSystemCenter,SolarWinds,Nagios和Zabbix這些強(qiáng)大的多成果平臺(tái)。險(xiǎn)些所有的系統(tǒng)打點(diǎn)東西都可以提供妨礙,設(shè)置,管帳,機(jī)能和安詳打點(diǎn)等成果,使其成為現(xiàn)代企業(yè)不行或缺的一部門(mén)。
可是,新加坡電信服務(wù)器 馬來(lái)西亞服務(wù)器,某些妨礙大概產(chǎn)生在硬件級(jí)別,但大概不會(huì)當(dāng)即影響系統(tǒng)或事情負(fù)載。譬喻,大概在處事器的雙列直插存儲(chǔ)器模塊(DIMM)中檢測(cè)到存儲(chǔ)器妨礙。可是,假如沒(méi)有事情負(fù)載利用該內(nèi)存空間,可能妨礙DIMM回收了妨礙更正技能掩護(hù),則處事器可以繼承事情,很少向系統(tǒng)打點(diǎn)陳訴其直接錯(cuò)誤。在大大都環(huán)境下,現(xiàn)代處事器的智能平臺(tái)打點(diǎn)界面或基板打點(diǎn)系統(tǒng)可以陳訴這些錯(cuò)誤,可是該信息凡是只是記錄,系統(tǒng)及其事情負(fù)載將繼承運(yùn)行。
而那些未檢測(cè)到的和未辦理的硬件問(wèn)題才是最大的問(wèn)題。假如意外的系統(tǒng)瓦解或電源間斷導(dǎo)致打算外的系統(tǒng)從頭啟動(dòng),則系統(tǒng)的內(nèi)部固件大概會(huì)看到這些問(wèn)題并拒絕完成引導(dǎo)進(jìn)程。譬喻,假如處事器的南橋芯片呈現(xiàn)妨礙,而且USB或板載磁盤(pán)節(jié)制器成果未初始化或響應(yīng),則引導(dǎo)進(jìn)程將遏制,縱然企業(yè)大概不利用處事器的USB端口,而是通過(guò)網(wǎng)絡(luò)會(huì)見(jiàn)存儲(chǔ)。此刻,IT部分必需實(shí)驗(yàn)從意外間斷中規(guī)復(fù),并同時(shí)辦理有缺陷的系統(tǒng)。
為了制止出這種環(huán)境,請(qǐng)舉辦按期現(xiàn),并主動(dòng)舉辦電源輪回測(cè)試,以強(qiáng)制在初級(jí)別硬件中從頭啟動(dòng)系統(tǒng)。除了在打算外間斷或停機(jī)期間舉辦加擾,還可以利用打算的從頭啟動(dòng)來(lái)確保數(shù)據(jù)掩護(hù),并以有組織的方法將虛擬機(jī)或存儲(chǔ)實(shí)例遷移到方針設(shè)備之外。接下來(lái),輪回上電,并答允硬件系統(tǒng)完全啟動(dòng),以顯示潛在的未知或未辦理的問(wèn)題。系統(tǒng)電源輪回凡是作為組織現(xiàn)有封鎖文檔的一部門(mén)。假如在從頭啟動(dòng)進(jìn)程中呈現(xiàn)問(wèn)題,企業(yè)將采納更好的籌備采納更正法子。
應(yīng)該如何靠近電源輪回測(cè)試,以及應(yīng)該多久舉辦一次?
具有高質(zhì)量設(shè)計(jì)的處事器可以運(yùn)行多年。當(dāng)企業(yè)在彈性設(shè)置(譬喻處事器集群)中陳設(shè)這些處事器設(shè)計(jì)時(shí),這些系統(tǒng)上支持的事情負(fù)載險(xiǎn)些是不行粉碎的。事實(shí)上,強(qiáng)調(diào)系統(tǒng)彈性和正常運(yùn)行時(shí)間經(jīng)常導(dǎo)致很多組織放棄周期性的功率輪回。
可是假如一個(gè)處事器或存儲(chǔ)子系統(tǒng)運(yùn)行了幾年,你怎么知道它會(huì)正常啟動(dòng)?假如不知道,那么但愿系統(tǒng)可以或許樂(lè)成冷啟動(dòng)的獨(dú)一要領(lǐng)是按期舉辦測(cè)試。
電源輪回測(cè)試需要什么樣的依賴(lài)干系?
企業(yè)的數(shù)據(jù)中心按照需要舉辦電源輪回測(cè)試,以便為其業(yè)務(wù)需求到達(dá)公道的置信程度。凡是,可以每幾個(gè)月或每年舉辦屢次電源輪回。將電源輪回測(cè)試與通例劫難規(guī)復(fù)和封鎖測(cè)試保持同步,以便同時(shí)處理懲罰這兩個(gè)方針大概是一個(gè)好主意。
有時(shí),也有一些外部因素影響數(shù)據(jù)中心的正常運(yùn)行,譬喻變電站進(jìn)級(jí)改革或重要的修建物改革,迫使企業(yè)使數(shù)據(jù)中心離線一段時(shí)間。如今,打算停機(jī)可以淘汰業(yè)務(wù)間斷,因?yàn)槠髽I(yè)的數(shù)據(jù)中心可以輕松地將事情負(fù)載遷移到幫助數(shù)據(jù)中心或云計(jì)較。所以任何IT團(tuán)隊(duì)籌備處理懲罰打算內(nèi)的設(shè)施封鎖也應(yīng)該可以或許舉辦通例電源輪回。
處事器硬件有任何風(fēng)險(xiǎn)嗎?
當(dāng)數(shù)據(jù)中心啟動(dòng)和運(yùn)行處事器或存儲(chǔ)陣列時(shí),老是有必然水平的電,熱和機(jī)器應(yīng)力。當(dāng)答允電子元件冷卻并再次升溫時(shí),大概會(huì)導(dǎo)致熱應(yīng)力,大概會(huì)導(dǎo)致邊沿毗連失效,并導(dǎo)致過(guò)早的系統(tǒng)妨礙。雷同地,假如讓老化的磁盤(pán)或冷卻電扇冷卻,它大概因潤(rùn)滑劑耗盡而卡住,并導(dǎo)致磁盤(pán)/電扇主軸或發(fā)生其他微妙機(jī)制的問(wèn)題。
別的,還存在潛在的邏輯風(fēng)險(xiǎn)。意外的設(shè)置變動(dòng)大概會(huì)使IT系統(tǒng)超出范疇,并導(dǎo)致由于系統(tǒng)設(shè)置打點(diǎn)東西的告誡或應(yīng)用措施啟動(dòng)問(wèn)題。譬喻,假如系統(tǒng)從頭啟動(dòng)并實(shí)驗(yàn)安裝意外或未核準(zhǔn)的修補(bǔ)措施,則設(shè)置打點(diǎn)東西大概會(huì)暫停事情負(fù)載或處事器集群?jiǎn)?dòng),直到系統(tǒng)的核準(zhǔn)設(shè)置規(guī)復(fù)為止。
這樣的問(wèn)題是稀有的,出格是在現(xiàn)代的數(shù)據(jù)中心節(jié)能系統(tǒng)中。固然一些IT專(zhuān)家認(rèn)為電源輪回可以淘汰這種妨礙的大概性,可是打算的電源輪回測(cè)試正是沉淀,斷絕息爭(zhēng)決這些范例問(wèn)題的步伐。早期袒露任何問(wèn)題最好比及意外的電源妨礙或應(yīng)用措施瓦解,并發(fā)明系統(tǒng)未正常啟動(dòng)的隱患。
跟著數(shù)據(jù)中心利用虛擬化和群集,其事情負(fù)載將繼承運(yùn)行,同時(shí)識(shí)別和修復(fù)妨礙系統(tǒng)。