首先讓我們來聊聊什么是大數(shù)據(jù)。大數(shù)據(jù)這個概念已經(jīng)出來很多年了(超過 10 年),但一直沒有一個準確的定義(也許也并不需要)。數(shù)據(jù)工程師(DataEngineer)對大數(shù)據(jù)的理解會更多從技術(shù)和系統(tǒng)的角度去理解,而數(shù)據(jù)分析人員(Data Analyst)對大數(shù)據(jù)理解會從產(chǎn)品的角度去理解,所以數(shù)據(jù)工程師(Data Engineer) 和數(shù)據(jù)分析人員(Data Analyst)所理解的大數(shù)據(jù)肯定是有差異的。我所理解的大數(shù)據(jù)是這樣的,大數(shù)據(jù)不是單一的一種技術(shù)或者產(chǎn)品,它是所有與數(shù)據(jù)相關(guān)的綜合學科。看大數(shù)據(jù)我會從 2 個維度來看,一個是數(shù)據(jù)流的維度(下圖的水平軸),另外一個是技術(shù)棧的維度(下圖的縱軸)。
其實我一直不太喜歡張口閉口講“大數(shù)據(jù)”,我更喜歡說“數(shù)據(jù)”。因為大數(shù)據(jù)的本質(zhì)在于“數(shù)據(jù)”,而不是“大”。由于媒體一直重點宣揚大數(shù)據(jù)的“大”,所以有時候我們往往會忽然大數(shù)據(jù)的本質(zhì)在“數(shù)據(jù)”,而不是“大”,“大”只是你看到的表相,本質(zhì)還是數(shù)據(jù)自身。
在我們講清楚大數(shù)據(jù)的含義之后,我們來聊聊大數(shù)據(jù)目前到底處在一個什么樣的位置。從歷史發(fā)展的角度來看,每一項新技術(shù)都會經(jīng)歷下面這樣一個技術(shù)成熟度曲線。
當一項新技術(shù)剛出來的時候人們會非常樂觀,常常以為這項技術(shù)會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術(shù)一開始會以非常快的速度受到大家追捧,然后到達一個頂峰,之后人們開始認識到這項新技術(shù)并沒有當初預想的那么具有革命性,然后會過于悲觀,之后就會經(jīng)歷泡沫階段。等沉寂一定階段之后,人們開始回歸理性,正視這項技術(shù)的價值,然后開始正確的應用這項技術(shù),從此這項技術(shù)開始走向穩(wěn)步向前發(fā)展的道路。(題外話,筆者在看這幅圖的時候也聯(lián)想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。
從大數(shù)據(jù)的歷史來看,大數(shù)據(jù)已經(jīng)經(jīng)歷了 2 個重要階段
兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現(xiàn)在正處于穩(wěn)步向前發(fā)展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數(shù)據(jù)大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然后慢慢走向下降通道(當然這張曲線并不會和上面這張技術(shù)成熟度曲線完全擬合,比如技術(shù)曲線處在下降通道有可能會使討論這項技術(shù)的搜索量增加)。
數(shù)據(jù)規(guī)模會繼續(xù)擴大,大數(shù)據(jù)將繼續(xù)發(fā)揚光大
前面已經(jīng)提到過,大數(shù)據(jù)已經(jīng)度過了過高期望的峰值和泡沫化的底谷期,現(xiàn)在正在穩(wěn)步向前發(fā)展。做這樣判斷主要有以下 2 個原因:
上游數(shù)據(jù)規(guī)模會繼續(xù)增長,特別是由于 IOT 技術(shù)的發(fā)展和成熟,以及未來 5G 技術(shù)的鋪開。在可預測的未來,數(shù)據(jù)規(guī)模仍將繼續(xù)快速增長,這是能夠帶動大數(shù)據(jù)持續(xù)穩(wěn)定向前發(fā)展的基本動力。
下游數(shù)據(jù)產(chǎn)業(yè)還有很多發(fā)展的空間,還有很多數(shù)據(jù)的價值我們沒有挖掘出來。
雖然現(xiàn)在人工智能,區(qū)塊鏈搶去了大數(shù)據(jù)的風口位置,也許大數(shù)據(jù)成不了未來的主角,但大數(shù)據(jù)也絕對不是跑龍?zhí)椎模?a href="http://m.qzkangyuan.com/cnidc/bigdata/">大數(shù)據(jù)仍將扮演一個重要而基礎(chǔ)的角色。可以這么說,只要有數(shù)據(jù)在,大數(shù)據(jù)就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數(shù)據(jù)的持續(xù)向上發(fā)展。
數(shù)據(jù)的實時性需求將更加突出
之前大數(shù)據(jù)遇到的最大挑戰(zhàn)在于數(shù)據(jù)規(guī)模大(所以大家會稱之為“大數(shù)據(jù)”),經(jīng)過工業(yè)界多年的努力和實踐,規(guī)模大這個問題基本已經(jīng)解決了。接下來幾年,更大的挑戰(zhàn)在于速度,也就是實時性。而大數(shù)據(jù)的實時性并不是指簡單的傳輸數(shù)據(jù)或者處理數(shù)據(jù)的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數(shù)據(jù)系統(tǒng)的實時性。所以大數(shù)據(jù)的實時性,包括以下幾個方面:
快速獲取和傳輸數(shù)據(jù) 快速計算處理數(shù)據(jù) 實時可視化數(shù)據(jù) 在線機器學習,實時更新機器學習模型
目前以 Kafka,F(xiàn)link 為代表的流處理計算引擎已經(jīng)為實時計算提供了堅實的底層技術(shù)支持,相信未來在實時可視化數(shù)據(jù)以及在線機器學習方面會有更多優(yōu)秀的產(chǎn)品涌現(xiàn)出來。當大數(shù)據(jù)的實時性增強之后,在數(shù)據(jù)消費端會產(chǎn)生更多有價值的數(shù)據(jù),從而形成一個更高效的數(shù)據(jù)閉環(huán),促進整個數(shù)據(jù)流的良性發(fā)展。
大數(shù)據(jù)基礎(chǔ)設(shè)施往云上遷移勢不可擋