在及時數據世界里,為什么我們還這么執著于Hadoop?按照451 Research觀測數據顯示,環繞批處理懲罰架構的Hadoop仍然是大數據[注]的代表技能,盡量其聲譽仍然高出實際陳設環境。
Hadoop之后:大數據的將來
還沒有真正陳設Hadoop的企業大概想要再等一等。而跟著Apache Spark等其他技能(Storm、Kafka等)的呈現,我們好像與Hadoop的批處理懲罰漸行漸遠,逐漸轉向及時數據的將來。
批處理懲罰不是重點
Cloudera的Doug Cutting是一個很是智慧的人,也是開源開拓人員,Hadoop、Lucene等大數據東西的開拓都有他的功勛。
固然Cutting認可及時流媒體技能的重要性,但他并沒有否定面向批處理懲罰的Hadoop的代價,他暗示:并不是因為我們以為批處理懲罰是最好的,所以Hadoop環繞批處理懲罰而構建。批處理懲罰(出格是MapReduce)很自然是第一步,因為它相對容易陳設,并提供很重要的代價。在Hadoop之前,沒有步伐利用開源軟件在商品硬件存儲和處理懲罰千兆字節。Hadoop的MapReduce是很大的進步。我們很難說清楚大數據的商品化對這個世界的重要性。這并不是說在Hadoop之前我們沒有存儲和闡明大量數據,,而是Hadoop讓我們很是便宜地實現這個進程。
總之,Hadoop民主化了大數據。
轉向流數據?
然而,Hadoop并沒有讓大數據闡明變得容易。正如DataStax首席布道者Patrick McFadin暗示,從企業數據挖掘代價并沒有那么簡樸:我們都傳聞過存儲和闡明PB級數據的投資回報率的問題。谷歌、雅虎和Facebook都在從中締造驚人的代價,而大部門企業都在試圖研究如何闡明所有數據,第一:收集所有數據;第二:理會所有數據;第三:利潤!在數據收集和利潤之間有許多貧苦的步調。跟著企業試圖加速對及時數據的闡明本領,新技能為他們提供了大概。
McFadin發明白這個新大數據倉庫的要害要素。首先是一個列隊系統,Kafka、RabbitMQ和Kinesis等。然后是流處理懲罰層,這大概包羅Storm、Spark Streaming可能Samza.對付高速存儲,企業常常轉向Cassandra、HBase、MongoDB可能MySQL等干系型數據庫。
最有趣的是批處理懲罰仍然有用武之地。McFadin暗示,批處理懲罰此刻可用于處理懲罰,即匯總和更深入的闡明。批處理懲罰和及時的融合被稱為“Lambda架構”,這涉及讓三個元素調和地共處:批處理懲罰、速度和處事。
換句話說,批處理懲罰仍然有用。
裁減批處理懲罰
但并不是每小我私家都同意。Zoomdata公司首席執行官和連系首創人Justin Langseth認為Lambda是“不須要的”,并稱,“此刻有端到端東西可以從采購、運輸、存儲到闡明和可視化來處理懲罰數據,而不需要批處理懲罰”。在他看來,批處理懲罰是大數據已往的遺留物:及時數據顯然最好應該作為流來處理懲罰,并且還可以加載汗青數據,正如你的DVR可以加載影戲《飄》可能上周的電視節目《美國偶像》到你的電視。這種區別很重要,Zoomdata認為將數據作為流來闡明可以增加可擴展性和機動性,而無論數據是及時照舊汗青數據。
然而,逾越可擴展性和機動性長處的大概是將批處理懲罰從大數據進程移除所帶來的簡樸性。Langseth認為,“當你不需要擔憂批處理懲罰窗口以及從批處理懲罰妨礙中規復時,這可以極大地簡化大數據架構。”
流闡明代替Hadoop?
Cutting稱,還沒有那么快,Cutting認為將來Hadoop等技能并不會完全被裁減,流闡明會得以成長,Cloudera的Enterprise Data Hub也是一樣。事實上,他不認為會遍及轉向流闡明,而是為各人帶來了又一種選擇。
更有趣的是,大數據的大爆炸會讓行業催生出一些好要領來應對數據處理懲罰。
我認為我們不會再那么頻繁地看到Spark這樣的主要技能增加,跟著時間的推移,我們將會尺度化這些東西,為大大都人提供成果來滿意其大數據應用需求。Hadoop帶來了技能爆炸,但我們大概會進入較量正常的演化進程,在各行業遍及利用這些技能。
DataStax社區司理Scott Hirleman同意說:“批處理懲罰并不會消失,老是會需要對大量數據的大局限闡明。”此刻各人對流闡明有極大的樂趣,但稱此刻還不清楚這種趨勢對大數據打算的影響。
總之,流闡明完全是關于“和”,而不是“可能”,這是對環繞批處理懲罰系統(譬喻Hadoop)的很好的增補,但這必定不會完全代替Hadoop.