欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)資訊

Spark:超越Hadoop MapReduce

Hadoop 一樣,Spark 提供了一個(gè) Map/Reduce API(漫衍式計(jì)較)和漫衍式存儲(chǔ)。二者主要的差異點(diǎn)是,Spark 在集群的內(nèi)存中生存數(shù)據(jù),而 Hadoop 在集群的磁盤中存儲(chǔ)數(shù)據(jù)。

Spark:超越Hadoop MapReduce

大數(shù)據(jù)對(duì)一些數(shù)據(jù)科學(xué)團(tuán)隊(duì)來說是 主要的挑戰(zhàn),因?yàn)樵谝蟮目蓴U(kuò)展性方面單機(jī)沒有本領(lǐng)和容量來運(yùn)行大局限數(shù)據(jù)處 理。另外,縱然專為大數(shù)據(jù)設(shè)計(jì)的系統(tǒng),如 Hadoop,由于一些數(shù)據(jù)的屬性問題也很難有效地處理懲罰圖數(shù)據(jù),我們將在本章的其他部門看到這方面的內(nèi)容。

Apache Spark 與 Hadoop 雷同,數(shù)據(jù)漫衍式存儲(chǔ)在處事器的集群可能是“節(jié)點(diǎn)”上。 差異的是,Spark 將數(shù)據(jù)生存在內(nèi)存(RAM)中,Hadoop 把數(shù)據(jù)生存在磁盤(機(jī)器 硬盤可能 SSD 固態(tài)硬盤)中。

界說 :在圖和集群計(jì)較方面,“節(jié)點(diǎn)”這個(gè)詞有兩種截然差異的意思。 圖數(shù)據(jù)由極點(diǎn)和邊構(gòu)成,在這里“節(jié)點(diǎn)”與極點(diǎn)的意思臨近。在集群計(jì)較 方面,構(gòu)成集群的物理呆板也被稱為“節(jié)點(diǎn)”。為制止夾雜,我們稱圖的 節(jié)點(diǎn)為極點(diǎn),這也是 Spark 中的專有名詞。而本書中的“節(jié)點(diǎn)”這個(gè)詞我 們嚴(yán)格界說為集群中的單個(gè)物理計(jì)較節(jié)點(diǎn)。

Spark:超越Hadoop MapReduce

大數(shù)據(jù)因?yàn)閿?shù)據(jù)量大單機(jī)無法處理懲罰。Hadoop 和 Spark 都是把數(shù)據(jù)漫衍在集群節(jié)點(diǎn)上的分 布式框架中。Spark 把漫衍式數(shù)據(jù)集存放在內(nèi)存中,所以比 Hadoop 把數(shù)據(jù)存放在磁盤中 處理懲罰速度要快許多。

除了將要計(jì)較的數(shù)據(jù)生存的位置差異(內(nèi)存和磁盤),Spark 的 API 比 Hadoop的 Map/Reduce API 更容易利用。Spark 利用簡捷且表達(dá)力較好的 Scala 作為原生編程語言,寫 Hadoop Map/Reduce 的 Java 代碼行數(shù)與寫 Spark 的 Scala 的代碼行的數(shù) 量比一般是 10:1。

固然本書主要利用 Scala,可是你對(duì) Scala 不熟悉也不消擔(dān)憂,我們在第 3 章提 供了快速入門,包羅獨(dú)特、艱澀和簡潔的 Scala 語法。進(jìn)一步熟悉 Java、C++、C#、 Python 等至少一門編程語言是須要的。

恍惚的大數(shù)據(jù)界說

此刻的“大數(shù)據(jù)”觀念已經(jīng)被很洪流平地夸大了。大數(shù)據(jù)的觀念可以追溯到Google 在 2003 年頒發(fā)的 Google 文件系統(tǒng)的論文和 2004 年頒發(fā)的 Map/Reduce 論文。

大數(shù)據(jù)這個(gè)術(shù)語有多種差異的界說,而且有些界說已經(jīng)失去了大數(shù)據(jù)所應(yīng)有的意 義。可是簡樸的焦點(diǎn)且至關(guān)重要的意義是:大數(shù)據(jù)是因數(shù)據(jù)自己太大,單機(jī)無法處理懲罰。

數(shù)據(jù)量已經(jīng)呈爆炸性增長。數(shù)據(jù)來自網(wǎng)站的點(diǎn)擊、處事器日志和帶有傳感器的 硬件等,這些稱為數(shù)據(jù)源。有些數(shù)據(jù)是圖數(shù)據(jù)(graph data),意味著由邊和極點(diǎn)構(gòu)成, 如一些協(xié)作類網(wǎng)站(屬于“Web 2.0”的社交媒體的一種)。大的圖數(shù)據(jù)集實(shí)際上是 眾包的,譬喻常識(shí)相互毗連的 Wikipedia、Facebook 的伴侶數(shù)據(jù)、LinkedIn 的毗連數(shù) 據(jù),可能 Twitter 的粉絲數(shù)據(jù)。

Hadoop :Spark 之前的世界

在接頭 Spark 之前,我們總結(jié)一下 Hadoop 是如何辦理大數(shù)據(jù)問題的,因?yàn)镾park 是成立在下面將要描寫的焦點(diǎn) Hadoop 觀念之上的。

Hadoop 提供了在集群呆板中實(shí)現(xiàn)容錯(cuò)、并行處理懲罰的框架。Hadoop 有兩個(gè)要害 本領(lǐng) :

HDFS—漫衍式存儲(chǔ) MapReduce—漫衍式計(jì)較

HDFS 提供了漫衍式、容錯(cuò)存儲(chǔ)。NameNode 把單個(gè)大文件支解成小塊,典范 的塊巨細(xì)是 64MB 或 128MB。這些小塊文件被分手在集群中的差異呆板上。容錯(cuò)性 是將每個(gè)文件的小塊復(fù)制到必然數(shù)量的呆板節(jié)點(diǎn)上(默認(rèn)復(fù)制到 3 個(gè)差異節(jié)點(diǎn), 下圖中為了暗示利便,將復(fù)制數(shù)配置為 2)。如果一個(gè)呆板節(jié)點(diǎn)失效,致使這個(gè)呆板上的 所有文件塊不行用,但其他呆板節(jié)點(diǎn)可以提供缺失的文件塊。這是 Hadoop 架構(gòu)的 要害理念 :呆板出妨礙是正常運(yùn)作的一部門。

Spark:超越Hadoop MapReduce

三個(gè)漫衍式數(shù)據(jù)塊通過 Hadoop 漫衍式文件系統(tǒng)(HDFS)保持兩個(gè)副本。

MapReduce 是提供并行和漫衍式計(jì)較的 Hadoop 并行處理懲罰框架,如下圖 。

Spark:超越Hadoop MapReduce

MapReduce 是被 Hadoop 和 Spark 都用到的一個(gè)數(shù)據(jù)處理懲罰范式。圖中暗示計(jì)較處事器日 志文件中“error”呈現(xiàn)的次數(shù),這是一個(gè) MapReduce 操縱。凡是 Map 操縱是一對(duì)一的 操縱,對(duì)每一個(gè)源數(shù)據(jù)項(xiàng)生成一個(gè)相應(yīng)的數(shù)據(jù)轉(zhuǎn)換操縱。Reduce 是多對(duì)一的操縱,聚合 Map 階段的輸出。Hadoop 和 Spark 都用到了 MapReduce 范式。

MapReduce 框架,措施員寫一個(gè)封裝有 map 和 reduce 函數(shù)的獨(dú)立代碼片斷來處 理 HDFS 上的數(shù)據(jù)集。為取到數(shù)據(jù)位置,代碼打包(jar 名目)分發(fā)到數(shù)據(jù)節(jié)點(diǎn), Map 操縱就在這些數(shù)據(jù)節(jié)點(diǎn)上執(zhí)行,這制止了集群的數(shù)據(jù)傳輸導(dǎo)致耗損網(wǎng)絡(luò)帶寬。 對(duì)付 Reduce 聚合操縱,Map 的功效被傳輸?shù)蕉鄠€(gè) Reduce 節(jié)點(diǎn)上做 reduce 操縱(稱 之為 shuf?ing)。首先,Map 階段是并行操縱的,Hadoop 提供了一個(gè)彈性機(jī)制,當(dāng) 一個(gè)呆板節(jié)點(diǎn)可能一個(gè)處理懲罰進(jìn)程失敗時(shí),計(jì)較會(huì)在其他呆板節(jié)點(diǎn)上重啟。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號(hào)

主站蜘蛛池模板: 盐池县| 延川县| 子长县| 宁化县| 武强县| 瓦房店市| 平昌县| 揭东县| 清远市| 赤水市| 潞西市| 潜山县| 忻州市| 福贡县| 朝阳县| 莎车县| 孝义市| 德州市| 庆阳市| 大兴区| 屏南县| 京山县| 星子县| 鸡西市| 南江县| 仙桃市| 仁怀市| 宜良县| 镇安县| 黔江区| 神农架林区| 英德市| 浦县| 苏尼特左旗| 土默特右旗| 平阴县| 静安区| 西昌市| 吉水县| 民乐县| 三门峡市|