欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)應(yīng)用

如何選擇最適合你的大數(shù)據(jù)平臺,有這一篇就夠了

技術(shù)最終為業(yè)務(wù)服務(wù),沒必要一定要追求先進性,各個企業(yè)應(yīng)根據(jù)自己的實際情況去選擇自己的技術(shù)路徑。

它不一定具有通用性,但從一定程度講,這個架構(gòu)可能比BAT的架構(gòu)更適應(yīng)大多數(shù)企業(yè)的情況,畢竟,大多數(shù)企業(yè),數(shù)據(jù)沒到那個份上,也不可能完全自研,商業(yè)和開源的結(jié)合可能更好一點,權(quán)當拋磚引玉。

數(shù)據(jù)平臺架構(gòu)的層次劃分沒啥標準,以前筆者曾經(jīng)做過大數(shù)據(jù)應(yīng)用規(guī)劃,也是非常糾結(jié),因為應(yīng)用的分類也是橫縱交錯,后來還是覺得體現(xiàn)一個“能用”原則,清晰且容易理解,能指導建設(shè),這里將大數(shù)據(jù)平臺劃分為“五橫一縱”。

具體見下圖示例,這張圖是比較經(jīng)典的,也是妥協(xié)的結(jié)果,跟當前網(wǎng)上很多的大數(shù)據(jù)架構(gòu)圖都可以作一定的映射。

如何選擇最適合你的大數(shù)據(jù)平臺,有這一篇就夠了

何謂五橫,基本還是根據(jù)數(shù)據(jù)的流向自底向上劃分五層,跟傳統(tǒng)的數(shù)據(jù)倉庫其實很類似,數(shù)據(jù)類的系統(tǒng),概念上還是相通的,分別為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)訪問層及應(yīng)用層。

同時,大數(shù)據(jù)平臺架構(gòu)跟傳統(tǒng)數(shù)據(jù)倉庫有一個不同,就是同一層次,為了滿足不同的場景,會采用更多的技術(shù)組件,體現(xiàn)百花齊放的特點,這是一個難點。

數(shù)據(jù)采集層:既包括傳統(tǒng)的ETL離線采集、也有實時采集、互聯(lián)網(wǎng)爬蟲解析等等。 數(shù)據(jù)處理層:根據(jù)數(shù)據(jù)處理場景要求不同,可以劃分為HADOOP、MPP、流處理等等。 數(shù)據(jù)分析層:主要包含了分析引擎,比如數(shù)據(jù)挖掘、機器學習、 深度學習等。 數(shù)據(jù)訪問層:主要是實現(xiàn)讀寫分離,將偏向應(yīng)用的查詢等能力與計算能力剝離,包括實時查詢、多維查詢、常規(guī)查詢等應(yīng)用場景。 數(shù)據(jù)應(yīng)用層:根據(jù)企業(yè)的特點不同劃分不同類別的應(yīng)用,比如針對運營商,對內(nèi)有精準營銷、客服投訴、基站分析等,對外有基于位置的客流、基于標簽的廣告應(yīng)用等等。 數(shù)據(jù)管理層:這是一縱,主要是實現(xiàn)數(shù)據(jù)的管理運維,它橫跨多層,實現(xiàn)統(tǒng)一管理。 1、數(shù)據(jù)采集層,這是基礎(chǔ)。

離線批量采集,采用的是HADOOP,這個已經(jīng)成為當前流線采集的主流引擎了,基于這個平臺,需要部署數(shù)據(jù)采集應(yīng)用或工具。

諸如BAT都是自己研發(fā)的產(chǎn)品,一般企業(yè),可以采用商用版本,現(xiàn)在這類選擇很多,比如華為BDI等等,很多企業(yè)技術(shù)實力有,但起步的時候往往對于應(yīng)用場景的理解比較弱,細節(jié)做工很差,導致做出來的產(chǎn)品難以達到要求,比如缺乏統(tǒng)計功能等,跟BAT差距很大,傳統(tǒng)企業(yè)去采購這類產(chǎn)品,要謹慎小心。

一個建議是,當采購產(chǎn)品的時候,除了技術(shù)先進性和指標外,免備案空間 香港服務(wù)器,更多的應(yīng)該問問是版本啥時候上線的,是否在哪里成功部署,是否有足夠多的客戶,如果能做個測試就更好,否則,你就是小白鼠哦,這個坑踩了不少。

能做和做成產(chǎn)品是兩個境界的事情,小的互聯(lián)網(wǎng)企業(yè)當然也能做出對于自己好用的采集工具,但它很難抽象并打造出一個真正的產(chǎn)品,BAT自研其實形成了巨大的優(yōu)勢。

實時采集現(xiàn)在也成了大數(shù)據(jù)平臺的標配,估計主流就是FLUME+KAFKA,然后結(jié)合流處理+內(nèi)存數(shù)據(jù)庫吧,這個技術(shù)肯定靠譜,但這類開源的東西好是好,但一旦出現(xiàn)問題往往解決周期往往比較長。

除了用FLUME,針對ORACLE數(shù)據(jù)庫的表為了實現(xiàn)實時采集,也可以采用OGG/DSG等技術(shù)實現(xiàn)實時的日志采集,可以解決傳統(tǒng)數(shù)據(jù)倉庫抽全量表的負荷問題。

爬蟲當前也逐漸成為很多企業(yè)的采集標配,因為互聯(lián)網(wǎng)新增數(shù)據(jù)主要靠它,可以通過網(wǎng)頁的解析獲取大量的上網(wǎng)信息,什么輿情分析、網(wǎng)站排名啥的,建議每個企業(yè)都應(yīng)該建立企業(yè)級的爬蟲中心,如果它未在你的大數(shù)據(jù)平臺規(guī)劃內(nèi),可以考慮一下,能拿的數(shù)據(jù)都不拿,就沒什么好說了。

企業(yè)級的爬蟲中心的建設(shè)難度蠻大,因為不僅僅是需要爬蟲,還需要建立網(wǎng)址和應(yīng)用知識庫,需要基于網(wǎng)頁文本進行中文分詞,倒排序及文本挖掘等,這一套下來,挑戰(zhàn)很大,當前已經(jīng)有不少開源組件了,比如solr、lucent、Nutch、ES等等,但要用好它,路漫漫其修遠兮。

總得來講,建設(shè)大數(shù)據(jù)采集平臺非常不易,從客戶的角度講,至少要達到以下三個要求:

多樣化數(shù)據(jù)采集能力:支持對表、文件、消息等多種數(shù)據(jù)的實時增量數(shù)據(jù)采集(使用flume、消息隊列、OGG等技術(shù))和批量數(shù)據(jù)分布式采集等能力(SQOOP、FTP VOER HDFS),比基于傳統(tǒng)ETL性能有量級上的提升,這是根本。 可視化快速配置能力:提供圖形化的開發(fā)和維護界面,支持圖形化拖拽式開發(fā),免代碼編寫,降低采集難度,每配置一個數(shù)據(jù)接口耗時很短,以降低人工成本。 統(tǒng)一調(diào)度管控能力:實現(xiàn)采集任務(wù)的統(tǒng)一調(diào)度,可支持Hadoop的多種技術(shù)組件(如 MapReduce、Spark 、HIVE)、關(guān)系型數(shù)據(jù)庫存儲過程、 shell腳本等,支持多種調(diào)度策略(時間/接口通知/手工)。 2、數(shù)據(jù)處理層,現(xiàn)在有個詞叫混搭,的確是這樣。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 开封县| 临清市| 徐州市| 芒康县| 鄯善县| 兴化市| 四会市| 连州市| 湖口县| 桐城市| 宣化县| 彭水| 阳新县| 龙口市| 临江市| 邛崃市| 芜湖县| 海晏县| 泉州市| 同德县| 乌苏市| 玉山县| 赫章县| 门头沟区| 高要市| 钦州市| 玉树县| 孟村| 河间市| 锡林浩特市| 樟树市| 安丘市| 河西区| 当雄县| 新兴县| 新干县| 高邑县| 和硕县| 五指山市| 永州市| 洞头县|