高端美女服务在线视频播放,brazzers在线观看,欧美日韩综合另类

技術(shù)最終為業(yè)務(wù)服務(wù)，沒必要一定要追求先進性，各個企業(yè)應(yīng)根據(jù)自己的實際情況去選擇自己的技術(shù)路徑。

它不一定具有通用性，但從一定程度講，這個架構(gòu)可能比BAT的架構(gòu)更適應(yīng)大多數(shù)企業(yè)的情況，畢竟，大多數(shù)企業(yè)，數(shù)據(jù)沒到那個份上，也不可能完全自研，商業(yè)和開源的結(jié)合可能更好一點，權(quán)當拋磚引玉。

大數(shù)據(jù)平臺架構(gòu)的層次劃分沒啥標準，以前筆者曾經(jīng)做過大數(shù)據(jù)應(yīng)用規(guī)劃，也是非常糾結(jié)，因為應(yīng)用的分類也是橫縱交錯，后來還是覺得體現(xiàn)一個“能用”原則，清晰且容易理解，能指導建設(shè)，這里將大數(shù)據(jù)平臺劃分為“五橫一縱”。

具體見下圖示例，這張圖是比較經(jīng)典的，也是妥協(xié)的結(jié)果，跟當前網(wǎng)上很多的大數(shù)據(jù)架構(gòu)圖都可以作一定的映射。

如何選擇最適合你的大數(shù)據(jù)平臺，有這一篇就夠了

何謂五橫，基本還是根據(jù)數(shù)據(jù)的流向自底向上劃分五層，跟傳統(tǒng)的數(shù)據(jù)倉庫其實很類似，數(shù)據(jù)類的系統(tǒng)，概念上還是相通的，分別為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)訪問層及應(yīng)用層。

同時，大數(shù)據(jù)平臺架構(gòu)跟傳統(tǒng)數(shù)據(jù)倉庫有一個不同，就是同一層次，為了滿足不同的場景，會采用更多的技術(shù)組件，體現(xiàn)百花齊放的特點，這是一個難點。

數(shù)據(jù)采集層：既包括傳統(tǒng)的ETL離線采集、也有實時采集、互聯(lián)網(wǎng)爬蟲解析等等。數(shù)據(jù)處理層：根據(jù)數(shù)據(jù)處理場景要求不同，可以劃分為HADOOP、MPP、流處理等等。數(shù)據(jù)分析層：主要包含了分析引擎，比如數(shù)據(jù)挖掘、機器學習、深度學習等。數(shù)據(jù)訪問層：主要是實現(xiàn)讀寫分離，將偏向應(yīng)用的查詢等能力與計算能力剝離，包括實時查詢、多維查詢、常規(guī)查詢等應(yīng)用場景。數(shù)據(jù)應(yīng)用層：根據(jù)企業(yè)的特點不同劃分不同類別的應(yīng)用，比如針對運營商，對內(nèi)有精準營銷、客服投訴、基站分析等，對外有基于位置的客流、基于標簽的廣告應(yīng)用等等。數(shù)據(jù)管理層：這是一縱，主要是實現(xiàn)數(shù)據(jù)的管理和運維，它橫跨多層，實現(xiàn)統(tǒng)一管理。 1、數(shù)據(jù)采集層，這是基礎(chǔ)。

離線批量采集，采用的是HADOOP，這個已經(jīng)成為當前流線采集的主流引擎了，基于這個平臺，需要部署數(shù)據(jù)采集應(yīng)用或工具。

諸如BAT都是自己研發(fā)的產(chǎn)品，一般企業(yè)，可以采用商用版本，現(xiàn)在這類選擇很多，比如華為BDI等等，很多企業(yè)技術(shù)實力有，但起步的時候往往對于應(yīng)用場景的理解比較弱，細節(jié)做工很差，導致做出來的產(chǎn)品難以達到要求，比如缺乏統(tǒng)計功能等，跟BAT差距很大，傳統(tǒng)企業(yè)去采購這類產(chǎn)品，要謹慎小心。

一個建議是，當采購產(chǎn)品的時候，除了技術(shù)先進性和指標外，免備案空間香港服務(wù)器，更多的應(yīng)該問問是版本啥時候上線的，是否在哪里成功部署，是否有足夠多的客戶，如果能做個測試就更好，否則，你就是小白鼠哦，這個坑踩了不少。

能做和做成產(chǎn)品是兩個境界的事情，小的互聯(lián)網(wǎng)企業(yè)當然也能做出對于自己好用的采集工具，但它很難抽象并打造出一個真正的產(chǎn)品，BAT自研其實形成了巨大的優(yōu)勢。

實時采集現(xiàn)在也成了大數(shù)據(jù)平臺的標配，估計主流就是FLUME+KAFKA，然后結(jié)合流處理+內(nèi)存數(shù)據(jù)庫吧，這個技術(shù)肯定靠譜，但這類開源的東西好是好，但一旦出現(xiàn)問題往往解決周期往往比較長。

除了用FLUME，針對ORACLE數(shù)據(jù)庫的表為了實現(xiàn)實時采集，也可以采用OGG/DSG等技術(shù)實現(xiàn)實時的日志采集，可以解決傳統(tǒng)數(shù)據(jù)倉庫抽全量表的負荷問題。

爬蟲當前也逐漸成為很多企業(yè)的采集標配，因為互聯(lián)網(wǎng)新增數(shù)據(jù)主要靠它，可以通過網(wǎng)頁的解析獲取大量的上網(wǎng)信息，什么輿情分析、網(wǎng)站排名啥的，建議每個企業(yè)都應(yīng)該建立企業(yè)級的爬蟲中心，如果它未在你的大數(shù)據(jù)平臺規(guī)劃內(nèi)，可以考慮一下，能拿的數(shù)據(jù)都不拿，就沒什么好說了。

企業(yè)級的爬蟲中心的建設(shè)難度蠻大，因為不僅僅是需要爬蟲，還需要建立網(wǎng)址和應(yīng)用知識庫，需要基于網(wǎng)頁文本進行中文分詞，倒排序及文本挖掘等，這一套下來，挑戰(zhàn)很大，當前已經(jīng)有不少開源組件了，比如solr、lucent、Nutch、ES等等，但要用好它，路漫漫其修遠兮。

總得來講，建設(shè)大數(shù)據(jù)采集平臺非常不易，從客戶的角度講，至少要達到以下三個要求：

多樣化數(shù)據(jù)采集能力：支持對表、文件、消息等多種數(shù)據(jù)的實時增量數(shù)據(jù)采集(使用flume、消息隊列、OGG等技術(shù))和批量數(shù)據(jù)分布式采集等能力(SQOOP、FTP VOER HDFS)，比基于傳統(tǒng)ETL性能有量級上的提升，這是根本。可視化快速配置能力：提供圖形化的開發(fā)和維護界面，支持圖形化拖拽式開發(fā)，免代碼編寫，降低采集難度，每配置一個數(shù)據(jù)接口耗時很短，以降低人工成本。統(tǒng)一調(diào)度管控能力：實現(xiàn)采集任務(wù)的統(tǒng)一調(diào)度，可支持Hadoop的多種技術(shù)組件(如 MapReduce、Spark 、HIVE)、關(guān)系型數(shù)據(jù)庫存儲過程、 shell腳本等，支持多種調(diào)度策略(時間/接口通知/手工)。 2、數(shù)據(jù)處理層，現(xiàn)在有個詞叫混搭，的確是這樣。