維克多在2012年出版的《大數(shù)據(jù)時(shí)代》一書中曾預(yù)測(cè):數(shù)據(jù)列入企業(yè)資產(chǎn)負(fù)債表只是時(shí)間問題。如今,伴隨著新興科技手段的融合創(chuàng)新,大數(shù)據(jù)已經(jīng)應(yīng)用到了我們生活中的方方面面,數(shù)據(jù)資產(chǎn)的概念已逐漸得到國(guó)內(nèi)外企業(yè)的強(qiáng)烈認(rèn)同。
但是,數(shù)據(jù)和企業(yè)資產(chǎn)可以直接劃等號(hào)嗎?實(shí)際情況是,沒有經(jīng)過系統(tǒng)管理和規(guī)劃治理的數(shù)據(jù)集群,不僅很難為企業(yè)創(chuàng)造實(shí)際效益,而且還將帶來權(quán)限混亂、計(jì)算能力下降、冗余存儲(chǔ)計(jì)算、資源浪費(fèi)等問題,使整個(gè)數(shù)據(jù)集群處于“亞健康”狀態(tài)。
那么,是否有正本清源的應(yīng)對(duì)方案呢?聯(lián)通大數(shù)據(jù)有限公司技術(shù)部負(fù)責(zé)人李大中日前在2019大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)-大數(shù)據(jù)前沿技術(shù)論壇進(jìn)行分享,他以《聯(lián)通大規(guī)模數(shù)據(jù)集群治理實(shí)踐》為主題,分享運(yùn)營(yíng)商在數(shù)據(jù)資產(chǎn)管理方面的經(jīng)驗(yàn)和對(duì)策。
下文為李大中演講內(nèi)容整理:
聯(lián)通大數(shù)據(jù)有限公司承擔(dān)著聯(lián)通大數(shù)據(jù)能力建設(shè)和對(duì)外服務(wù)運(yùn)營(yíng)職能,目前平臺(tái)存儲(chǔ)容量達(dá)100PB,Hadoop集群超過6000個(gè)節(jié)點(diǎn),數(shù)據(jù)模型數(shù)量達(dá)2000余個(gè)。作為運(yùn)營(yíng)商在數(shù)據(jù)治理過程中,既要面對(duì)大數(shù)據(jù)量的實(shí)時(shí)處理需求,也必須從成本角度考慮集群算力配置、安全合規(guī)等方面的要求。大數(shù)據(jù)是一個(gè)高成本行業(yè),集群算力成本是其中主要部分。
通過參考行業(yè)的治理經(jīng)驗(yàn),并結(jié)合公司業(yè)務(wù)和組織架構(gòu)特點(diǎn),我們總結(jié)出了一套適合公司業(yè)務(wù)發(fā)展的數(shù)據(jù)資產(chǎn)管理體系,也就是“疏整促+巡山+DataValue”數(shù)據(jù)資產(chǎn)管理體系:基于“疏整促”工程構(gòu)建的全生命周期數(shù)據(jù)管控治理體系,基于“巡山”工程構(gòu)建的大規(guī)模集群治理體系,基于“DataValue”工程實(shí)現(xiàn)對(duì)外數(shù)據(jù)價(jià)值經(jīng)營(yíng),三大工程同步推進(jìn),形成數(shù)據(jù)治理+集群治理+數(shù)據(jù)價(jià)值的整體協(xié)同效應(yīng)。
在實(shí)際執(zhí)行中,“巡山”工程作為 切入點(diǎn)首先啟動(dòng),效果也最為明顯。在大規(guī)模集群計(jì)算環(huán)境處于亞健康的狀態(tài)下,免備案主機(jī),我們將治理工作分解為兩階段:首要任務(wù)是解決亞健康問題,即保障集群資源算力可用、確保集群穩(wěn)定性、業(yè)務(wù)連續(xù)性;長(zhǎng)期和更為重要任務(wù)是保持健康狀態(tài),即持續(xù)有效的監(jiān)督數(shù)據(jù)治理工程的效果。
關(guān)于大規(guī)模數(shù)據(jù)集群治理的推進(jìn)方法論,由于集群治理涉及到從采集、清洗到模型加工,從平臺(tái)運(yùn)維崗到產(chǎn)品開發(fā)崗,幾乎涵蓋了公司的整個(gè)技術(shù)線和產(chǎn)品線上百人工作內(nèi)容,所以采用自上而下的頂層設(shè)計(jì)的方式是不現(xiàn)實(shí)的,我們采用的是自下而上、自發(fā)協(xié)同、精益推進(jìn)式的數(shù)據(jù)集群治理文化。從發(fā)現(xiàn)問題點(diǎn)入手,由點(diǎn)帶面找到原因、制定解決策略并建立相應(yīng)的監(jiān)督點(diǎn),最終逐漸形成體系;通過某幾個(gè)環(huán)節(jié)治理成果顯性化,帶動(dòng)整個(gè)公司生產(chǎn)組織體系逐漸形成治理文化。
在治理過程中,站群服務(wù)器,針對(duì)我們遇到過的幾個(gè)重要的點(diǎn)向大家介紹一下思路:
1. HDFS&YARN作業(yè)深度監(jiān)控
針對(duì)小文件過多、文件量過大、耗資源大等情況,聯(lián)通大數(shù)據(jù)通過自主研發(fā)一套統(tǒng)一元數(shù)據(jù)實(shí)時(shí)采集平臺(tái)對(duì)Fsimage和EditLog進(jìn)行反序列化解析,實(shí)時(shí)批量獲取資源隊(duì)列信息、文件目錄、作業(yè)任務(wù)信息等內(nèi)容,通過多維關(guān)聯(lián)畫像洞察疑似異常作業(yè),推動(dòng)作業(yè)優(yōu)化和監(jiān)控優(yōu)化效果。最終集群文件數(shù)量從接近8000萬下降為3000萬,平均文件大小提升4倍。集群資源負(fù)載從每天幾乎處于打滿狀態(tài),下降為不到70%。每年節(jié)約固定資產(chǎn)投入上千萬元。
2. RPC請(qǐng)求和關(guān)鍵服務(wù)預(yù)警
針對(duì)集群RPC經(jīng)常出現(xiàn)請(qǐng)求延時(shí)過大,甚至達(dá)到秒級(jí),導(dǎo)致集群處于停擺不可用狀態(tài),通過采集JMX指標(biāo)、服務(wù)連接數(shù)、堆棧信息、GC等信息進(jìn)行關(guān)聯(lián)畫像,并下鉆洞察相關(guān)作業(yè),精準(zhǔn)定位待優(yōu)化作業(yè)。優(yōu)化后集群RPC請(qǐng)求延時(shí)大幅減少,下降為毫秒級(jí)別。
3. 重復(fù)加工/冗余計(jì)算挖掘
針對(duì)數(shù)據(jù)重復(fù)加工、冗余計(jì)算等情況,估計(jì)大家的系統(tǒng)中或多或少都存在,這種情況直接導(dǎo)致資源被浪費(fèi)。我們通過對(duì)HDFS JOB BINARY FILE分析,定位疑似冗余計(jì)算作業(yè),這種方式同組織架構(gòu)復(fù)雜度無關(guān)、不依賴上層業(yè)務(wù)輸入,其核心思想就是通過提取出具有相同輸入路徑的作業(yè),以目錄維度視角挖掘疑似重復(fù)作業(yè),優(yōu)化后集群資源降低10%以上。
4. 重構(gòu)元數(shù)據(jù)管理、血緣分析應(yīng)用