欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

大數(shù)據(jù)資訊

大數(shù)據(jù)存儲(chǔ)：擴(kuò)展Hadoop的十大體點(diǎn)

2016-12-28 冠星 196

20世紀(jì)90年月，每臺(tái)應(yīng)用處事器往往都擁有直接毗連存儲(chǔ)(DAS)。建設(shè)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)，是為了提供共享的存儲(chǔ)池，以得到更大的局限和更高的效率。Hadoop逆轉(zhuǎn)了這股潮水，讓DAS從頭風(fēng)行起來(lái)。每個(gè)Hadoop集群都有本身的、橫向擴(kuò)展直接毗連存儲(chǔ)。它有助于Hadoop打點(diǎn)數(shù)據(jù)局部性，可是犧牲了共享存儲(chǔ)的局限和效率。因此，假如你有Hadoop刊行版的多個(gè)實(shí)例，就會(huì)有多個(gè)這種橫向擴(kuò)展的存儲(chǔ)孤島。

Hedvig公司的首席執(zhí)行官兼首創(chuàng)人阿維納什·拉克希曼(Avinash Lakshman)說(shuō)：“我們碰著的最大挑戰(zhàn)就是，分身數(shù)據(jù)局部性與局限和效率。”

數(shù)據(jù)局部性是指確保大數(shù)據(jù)集存儲(chǔ)在執(zhí)行闡明任務(wù)的計(jì)較資源四周。對(duì)付Hadoop來(lái)說(shuō)，這就意味著打點(diǎn)數(shù)據(jù)節(jié)點(diǎn)(DataNode)，而數(shù)據(jù)節(jié)點(diǎn)為MapReduce擁有足夠好的機(jī)能提供了存儲(chǔ)資源。它可以高效地事情，可是導(dǎo)致了另一個(gè)操縱問(wèn)題：大數(shù)據(jù)存儲(chǔ)孤島。本文先容的這些要點(diǎn)有助于打點(diǎn)Hadoop情況中的大數(shù)據(jù)存儲(chǔ)。

1. 分手式存儲(chǔ)

會(huì)合式存儲(chǔ)作為傳統(tǒng)架構(gòu)已有一段時(shí)間。可是大數(shù)據(jù)其實(shí)并不適合會(huì)合存儲(chǔ)架構(gòu)。Infogix的金融處事行業(yè)(FSI)計(jì)謀和運(yùn)營(yíng)司理森希爾·拉賈曼尼坎(Senthil Rajamanickam)暗示，Hadoop旨在讓計(jì)較資源更靠近數(shù)據(jù)，同時(shí)充實(shí)操作HDFS文件系統(tǒng)的大局限橫向擴(kuò)展成果。

然而，辦理Hadoop打點(diǎn)自有數(shù)據(jù)的低效問(wèn)題的常見(jiàn)要領(lǐng)，一向是將Hadoop數(shù)據(jù)存儲(chǔ)在SAN上。而這帶來(lái)了機(jī)能和局限方面的一系列瓶頸。此刻，你的所有數(shù)據(jù)都通過(guò)會(huì)合式SAN節(jié)制器來(lái)處理懲罰，而節(jié)制器粉碎了Hadoop的漫衍式、并行化的特性。你需要為多個(gè)數(shù)據(jù)節(jié)點(diǎn)打點(diǎn)多個(gè)SAN，可能將所有數(shù)據(jù)節(jié)點(diǎn)生存到一個(gè)SAN上。

拉克希曼說(shuō)：“由于Hadoop是一種漫衍式應(yīng)用系統(tǒng)，它應(yīng)該可以在漫衍式存儲(chǔ)上運(yùn)行，那樣你的存儲(chǔ)保持與Hadoop自己一樣的彈性。這需要你努力回收軟件界說(shuō)存儲(chǔ)要領(lǐng)，在商用處事器上運(yùn)行，可是它比把Hadoop放在傳統(tǒng)SAN或NAS技能上高效得多，因?yàn)楹笳呓oHadoop造成了瓶頸。

2. 超融合vs漫衍式

不外要小心，別將超融合與漫衍式等量齊觀。某些超融合要領(lǐng)是漫衍式的，但這個(gè)術(shù)語(yǔ)凡是意味著你的應(yīng)用措施和存儲(chǔ)可以配合駐留在同一個(gè)計(jì)較節(jié)點(diǎn)上。辦理數(shù)據(jù)局部性問(wèn)題很誘人，可是這會(huì)造成嚴(yán)重的資源爭(zhēng)奪現(xiàn)象。 Hadoop應(yīng)用和存儲(chǔ)平臺(tái)將爭(zhēng)奪同樣的內(nèi)存和處理懲罰器資源。拉克希曼暗示，最虧得專(zhuān)用的應(yīng)用層上運(yùn)行Hadoop，在專(zhuān)用的存儲(chǔ)層中運(yùn)行漫衍式存儲(chǔ)，從而充實(shí)操作緩存和分層技能，以辦理數(shù)據(jù)局部性和網(wǎng)絡(luò)機(jī)能開(kāi)銷(xiāo)。

3. 制止節(jié)制器阻塞點(diǎn)

他強(qiáng)調(diào)了做到這一點(diǎn)的一個(gè)重要方面――制止通過(guò)單一(或大概兩個(gè))點(diǎn)(好比傳統(tǒng)節(jié)制器)來(lái)處理懲罰數(shù)據(jù)。通過(guò)改而確生存儲(chǔ)平臺(tái)并行化，就能顯著提高機(jī)能。

另外，這種要領(lǐng)提供了增量可擴(kuò)展性。為數(shù)據(jù)湖添加容量就跟添加幾臺(tái)內(nèi)置閃存或旋轉(zhuǎn)磁盤(pán)的x86處事器一樣簡(jiǎn)樸。漫衍式存儲(chǔ)平臺(tái)可在須要時(shí)自動(dòng)添加容量、從頭平衡數(shù)據(jù)。

4. 反復(fù)數(shù)據(jù)刪除和壓縮

駕御大數(shù)據(jù)的一個(gè)要害部門(mén)是反復(fù)數(shù)據(jù)刪除和壓縮。Hedvig看到常見(jiàn)的大數(shù)據(jù)集可以縮減70%-90%。在PB級(jí)局限下，這意味著可節(jié)減數(shù)萬(wàn)美元的磁盤(pán)本錢(qián)。

拉克希曼說(shuō)：“現(xiàn)代平臺(tái)提供了內(nèi)聯(lián)式(而不是處理懲罰后)反復(fù)數(shù)據(jù)刪除和壓縮。這意味著，假如不先以某種方法來(lái)縮減數(shù)據(jù)，數(shù)據(jù)永遠(yuǎn)不會(huì)進(jìn)入到磁盤(pán)，這大大淘汰了存儲(chǔ)數(shù)據(jù)所需的容量。”

5. 整合Hadoop刊行版

很多大組織都有多個(gè)Hadoop刊行版。大概是由于開(kāi)拓人員需要會(huì)見(jiàn)多個(gè)“版本”，可能業(yè)務(wù)部分久而久之回收了差異的版本。不管奈何，IT總部經(jīng)常最終認(rèn)真這些集群的日常維護(hù)和操縱。大數(shù)據(jù)數(shù)量真正開(kāi)始影響業(yè)務(wù)時(shí)，存在多個(gè)Hadoop刊行版會(huì)導(dǎo)致效率低下。

拉克希曼說(shuō)：“你可以建設(shè)一個(gè)單一、顛末反復(fù)數(shù)據(jù)刪除的壓縮數(shù)據(jù)湖，然后它可覺(jué)得Hadoop的多個(gè)實(shí)例提供數(shù)據(jù)，從而得到數(shù)據(jù)效率。”

6. 對(duì)Hadoop虛擬化處理懲罰

虛擬化技能在企業(yè)界刮起了一場(chǎng)風(fēng)暴。在很多處所，如今高出80%的物理處事器已虛擬化。不外由于機(jī)能和數(shù)據(jù)局部性問(wèn)題，很多人制止了對(duì)Hadoop舉辦虛擬化處理懲罰。

拉克希曼說(shuō)：“你可以對(duì)Hadoop或Spark舉辦虛擬化處理懲罰。”

7. 構(gòu)建彈性數(shù)據(jù)湖

構(gòu)建數(shù)據(jù)湖并非易事，但大數(shù)據(jù)存儲(chǔ)的需求大概需要數(shù)據(jù)湖。有很多要領(lǐng)可以著手構(gòu)建，但是哪一種才是符合的要領(lǐng)?符合的架構(gòu)有望構(gòu)建一個(gè)活潑、彈性的數(shù)據(jù)湖，可以存儲(chǔ)來(lái)自所有數(shù)據(jù)源、回收多種名目標(biāo)數(shù)據(jù)，包羅布局化數(shù)據(jù)、非布局化數(shù)據(jù)和半布局化數(shù)據(jù)。更重要的是，它必需支持就在數(shù)據(jù)源處執(zhí)行應(yīng)用措施，而不是從長(zhǎng)途源處執(zhí)行，那樣需要移動(dòng)數(shù)據(jù)。

欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

虛擬主機(jī)

300元/年起購(gòu)

云服務(wù)器

服務(wù)器租用

服務(wù)器托管

香港服務(wù)器

美國(guó)服務(wù)器

亞洲服務(wù)器

歐洲服務(wù)器

增值服務(wù)

300元/年起購(gòu)

網(wǎng)站建設(shè)

3000元 起購(gòu)

軟件銷(xiāo)售

合作產(chǎn)品

大數(shù)據(jù)資訊

大數(shù)據(jù)存儲(chǔ)：擴(kuò)展Hadoop的十大體點(diǎn)

夢(mèng)飛云服務(wù) - 關(guān)鍵詞 - 標(biāo)簽

3000元起購(gòu)