為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
來自聯通大數據 CTO宋雨倫為我們帶來了《聯通大規模數據治理實踐》的精彩演講。
非常高興能站在演講臺上跟大家分享聯通在大數據治理方面取得的一些成績,也非常榮幸今天能再次見到Kyle老師,我是他的第一批學員。目前取得的一些成績,還是幾大塊。如果非得從歷程上看的話,聯通從大數據公司的成立到集團最早做的全國大集中的工作來看,其實還是經歷了非常傳統的過程,就是數據的集中,再到應用牽引,倒逼我們做數據治理,是這樣一個過程。
在這個過程中,由于我們對數據的采集或者加工倒逼我們不得不把數據處理好,因為這些數據對外服務的時候是有成本的,而且成本非常高。在這一塊,不管是資源的使用情況還是成本的使用情況來看,我們都需要對數據進行治理。因為涉及到比較敏感的內容,我就不在這里說了。我想跟大家說的是,明天我們會有專場,有專業人員給大家講集群治理方面是怎么做的,因為這可以保證加工算力。
今天我們大體分為七塊,就是基礎資源分配和管理,統一數據采集交換,核心生產平臺、能力開放平臺、數據治理體系和安全管控體系,這七項工作是我們目前所形成的數據資產。
這七個方面我們是怎么做的?目前我們還是通過自己公司內部的幾個項,從公司管理層的支撐,立了幾個內部項目,主要目的是梳理、整理和促進應用,這是我們的核心目標。數據的加工過程,大家知道Hadoop的天生劣勢,就是對小文件的處理效率極低,那我們怎么辦?就要將小文件變成大文件。我們想用各種各樣的技術方式,去解決小文件的加工,不管是用什么樣的方式,所有的方式只為一個目標實現,就是以小化整,這樣才能提高整體算力和數據整體對外服務的按時、保質保量的需求。
我們最終是要做什么?因為大數據公司定位非常清晰,就是數據的對外服務。數據對外服務就要體現數據的價值,我們所有的一切目標也都是圍繞數據價值的體現來實現的。為什么?為客戶和用戶做好服務,而服務的過程就是體現數據價值的過程。
我們有了自己的清晰目標,有了自己相對應的工程和方法論,我們就在這套指導思想下,不管是人力資源,還是硬件資源配套,就繼續做這樣的工作就行了。
面臨的挑戰以及數據核心能力建設,目前看大數據在中國已經蓬勃發展好多年了,我們目前更多認為是在這六大能力里。對我們來說已經不存在數據匯集、采集的問題了,更多的是我們如何管理這些數據的能力,如何做好連接的管理,如何做好數據治理的能力,如何做好數據管理、數據安全管理、授權管理等等這一系列的管理能力。
尤其在5G的基礎背景下,海量數據激增,除了對人連接的管理和物連接的管理,數據再集中就有困難了,我們就要做好對數據路徑的管理和授權的管理,在這一點上說,我們未來對數據連接的管理將是我們的重中之重。
傳統的數據對外服務能力,包括數據科學的應用實踐能力,數據分析挖掘建模的能力,對外服務和應用開發能力,云服務器,都是我們必須要做的。剛才六大能力建設是對我們的挑戰,我總結了八個字,這是我覺得目前對這六項能力衡量的標準,就是如何量化這些能力,如何對這些能力進行相應的標準衡量,以及如何應用和如何體現價值。
我們在整個數據治理的過程中的深刻體會,第一是必須要有相應的組織結構保障,directadmin漢化,不管是公司層面還是內部分工層面,我也是從DMM模型中受益的。我們在數據的使用者和生產者上,要有清晰的定義和界限。包括反饋機制的建立,因為數據不用,你永遠不知道它的價值在哪里,永遠不知道衡量質量的標準在哪里。包括理念的構建,全員都要不斷的給反饋,只有快速的反饋機制才能促進我們不斷的提升數據質量和數據標準、治理能力。
當然了,我們在這里還是一樣,因為今天看到聯通數據中心也在,也是給了我們大力的支持。因為我們整個數據鏈路采集的過程,在聯通集團內部還是比較長的,整個聯通集團都在為大數據公司對外提供數據服務能力,做了全程的保障。