安裝后大約需要一周的時(shí)間來(lái)收集足夠的數(shù)據(jù)以獲得基線并開(kāi)始生成準(zhǔn)確的相關(guān)性。
戈什說(shuō):“我們一直在美國(guó)和海外運(yùn)營(yíng)著幾個(gè)數(shù)據(jù)中心的飛行員,而我們所學(xué)到的是降低冷卻成本和提高相對(duì)效率是很好的,但不是運(yùn)營(yíng)商主要關(guān)心的事情。”
使用機(jī)器學(xué)習(xí)來(lái)處理事件可以幫助彌補(bǔ)熟練數(shù)據(jù)中心工作人員的減少。“存在巨大的人才短缺,數(shù)據(jù)中心運(yùn)營(yíng)管理方面沒(méi)有大學(xué)課程,因此這將成為未來(lái)的一個(gè)大問(wèn)題。”Ghosh指出。“部分工作可以通過(guò)人工智能以更系統(tǒng)的方式完成,我非常希望下一代人工智能可以幫助彌合供需之間的差距。”
該公司了解到,它必須解決的不僅僅是飛行員對(duì)潛在客戶的冷卻。
AdeptDC的角度是將硬件數(shù)據(jù)與設(shè)施冷卻系統(tǒng)狀態(tài)數(shù)據(jù)相關(guān)聯(lián)。
如果系統(tǒng)通過(guò)較低級(jí)別并且無(wú)法識(shí)別問(wèn)題,則機(jī)器學(xué)習(xí)功能會(huì)啟動(dòng)以查找根本原因與可能導(dǎo)致問(wèn)題的各種其他來(lái)源之間的關(guān)聯(lián)。
相關(guān)性也有助于排除故障。該系統(tǒng)包括用于分類事件的清單,以幫助員工,這可能在停電期間恐慌或在錯(cuò)誤的地方尋找問(wèn)題。“當(dāng)數(shù)據(jù)中心出現(xiàn)故障時(shí),大部分團(tuán)隊(duì)都會(huì)跑到服務(wù)器機(jī)房,但服務(wù)器問(wèn)題可能與冷卻問(wèn)題有關(guān)。”戈什說(shuō)。
“我們希望捕捉到作為預(yù)警的癥狀。”戈什說(shuō)。
這意味著從服務(wù)器電源和風(fēng)扇收集運(yùn)營(yíng)數(shù)據(jù),據(jù)他稱,其故障是數(shù)據(jù)中心運(yùn)營(yíng)中的主要問(wèn)題。“CPU已經(jīng)在硬件架構(gòu)中得到了解決,但電源系統(tǒng)和服務(wù)器風(fēng)扇始終處于故障狀態(tài)。”
第一級(jí)是簡(jiǎn)單的事情。例如,如果服務(wù)器指示燈未亮起,則電源或冷卻系統(tǒng)可能存在問(wèn)題。下一級(jí)稍微復(fù)雜一些,例如設(shè)備內(nèi)部的電壓?jiǎn)栴}。更復(fù)雜的水平處理氣流數(shù)據(jù)等事情。
該公司早年一直專注于冷卻優(yōu)化,正在擴(kuò)大其功能范圍,承諾從電源、冷卻和硬件收集數(shù)據(jù)的系統(tǒng),關(guān)聯(lián)所有各種信息,以全面優(yōu)化效率、排除故障、發(fā)出事件警報(bào),并通過(guò)識(shí)別異常來(lái)防止設(shè)備故障。
當(dāng)存在事故并對(duì)冷卻系統(tǒng)進(jìn)行微調(diào)時(shí),相關(guān)性對(duì)于生成修正建議很有用,但最重要的是,它們對(duì)于檢測(cè)正常操作期間的異常非常有用。一旦AdeptDC標(biāo)記異常,其儀表板將顯示其所在的邏輯層:IT、網(wǎng)絡(luò)或電源和冷卻。
運(yùn)營(yíng)商主要擔(dān)心避免故障,這通常是由于冷卻問(wèn)題和相關(guān)硬件問(wèn)題而導(dǎo)致的。(上個(gè)月災(zāi)難性的微軟Azure停電只是最近一個(gè)備受矚目的例子。)應(yīng)用其技術(shù)來(lái)幫助解決這種問(wèn)題是AdeptDC的新目標(biāo)。他說(shuō):“我們使用相同的機(jī)器學(xué)習(xí)技術(shù),但我們使用它來(lái)確保硬件運(yùn)行正常并預(yù)測(cè)性能問(wèn)題,而不只是電源和冷卻優(yōu)化。”
戈什說(shuō):“像谷歌這樣的公司使用環(huán)境數(shù)據(jù)來(lái)代表數(shù)據(jù)中心生態(tài)系統(tǒng)和性能的總體健康狀況。”他建議,香港免備案主機(jī) 美國(guó)服務(wù)器,環(huán)境數(shù)據(jù)(溫度和濕度)是整個(gè)系統(tǒng)健康狀況的一部分,但電壓監(jiān)測(cè)也很關(guān)鍵。電壓是整個(gè)數(shù)據(jù)中心健康狀況的主要指標(biāo);如果電壓表現(xiàn)得很奇怪,那么就會(huì)出現(xiàn)各種各樣的問(wèn)題。
有多個(gè)故障排除級(jí)別:
AdeptDC預(yù)計(jì)將在下個(gè)月推出其數(shù)據(jù)中心運(yùn)營(yíng)商的AI助手,首席執(zhí)行官拉亞戈什在接受采訪時(shí)說(shuō)道。它使用相同的機(jī)器學(xué)習(xí)技術(shù)和相同簡(jiǎn)單的安裝方法,通過(guò)Docker容器,不需要硬件傳感器。
正如Google所展示的那樣,應(yīng)用機(jī)器學(xué)習(xí)來(lái)理解散熱模式,并微調(diào)數(shù)據(jù)中心冷卻系統(tǒng),以實(shí)現(xiàn)最高效率,是機(jī)器學(xué)習(xí)的合理數(shù)據(jù)中心用例。但是,將機(jī)器學(xué)習(xí)應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)中心管理的軟件初創(chuàng)公司AdeptDC認(rèn)為,如果考慮的不僅僅是冷卻甚至是電力,它還會(huì)更有效。
,VPS租用 國(guó)內(nèi)服務(wù)器