20世紀(jì)90年月,每臺(tái)應(yīng)用處事器往往都擁有直接毗連存儲(chǔ)(DAS)。建設(shè)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN),是為了提供共享的存儲(chǔ)池,以得到更大的局限和更高的效率。Hadoop逆轉(zhuǎn)了這股潮水,讓DAS從頭風(fēng)行起來(lái)。每個(gè)Hadoop集群都有本身的、橫向擴(kuò)展直接毗連存儲(chǔ)。它有助于Hadoop打點(diǎn)數(shù)據(jù)局部性,可是犧牲了共享存儲(chǔ)的局限和效率。因此,假如你有Hadoop刊行版的多個(gè)實(shí)例,就會(huì)有多個(gè)這種橫向擴(kuò)展的存儲(chǔ)孤島。
Hedvig公司的首席執(zhí)行官兼首創(chuàng)人阿維納什·拉克希曼(Avinash Lakshman)說(shuō):“我們碰著的最大挑戰(zhàn)就是,分身數(shù)據(jù)局部性與局限和效率。”
數(shù)據(jù)局部性是指確保大數(shù)據(jù)集存儲(chǔ)在執(zhí)行闡明任務(wù)的計(jì)較資源四周。對(duì)付Hadoop來(lái)說(shuō),這就意味著打點(diǎn)數(shù)據(jù)節(jié)點(diǎn)(DataNode),而數(shù)據(jù)節(jié)點(diǎn)為MapReduce擁有足夠好的機(jī)能提供了存儲(chǔ)資源。它可以高效地事情,可是導(dǎo)致了另一個(gè)操縱問(wèn)題:大數(shù)據(jù)存儲(chǔ)孤島。本文先容的這些要點(diǎn)有助于打點(diǎn)Hadoop情況中的大數(shù)據(jù)存儲(chǔ)。
1. 分手式存儲(chǔ)
會(huì)合式存儲(chǔ)作為傳統(tǒng)架構(gòu)已有一段時(shí)間。可是大數(shù)據(jù)其實(shí)并不適合會(huì)合存儲(chǔ)架構(gòu)。Infogix的金融處事行業(yè)(FSI)計(jì)謀和運(yùn)營(yíng)司理森希爾·拉賈曼尼坎(Senthil Rajamanickam)暗示,Hadoop旨在讓計(jì)較資源更靠近數(shù)據(jù),同時(shí)充實(shí)操作HDFS文件系統(tǒng)的大局限橫向擴(kuò)展成果。
然而,辦理Hadoop打點(diǎn)自有數(shù)據(jù)的低效問(wèn)題的常見(jiàn)要領(lǐng),一向是將Hadoop數(shù)據(jù)存儲(chǔ)在SAN上。而這帶來(lái)了機(jī)能和局限方面的一系列瓶頸。此刻,你的所有數(shù)據(jù)都通過(guò)會(huì)合式SAN節(jié)制器來(lái)處理懲罰,而節(jié)制器粉碎了Hadoop的漫衍式、并行化的特性。你需要為多個(gè)數(shù)據(jù)節(jié)點(diǎn)打點(diǎn)多個(gè)SAN,可能將所有數(shù)據(jù)節(jié)點(diǎn)生存到一個(gè)SAN上。
拉克希曼說(shuō):“由于Hadoop是一種漫衍式應(yīng)用系統(tǒng),它應(yīng)該可以在漫衍式存儲(chǔ)上運(yùn)行,那樣你的存儲(chǔ)保持與Hadoop自己一樣的彈性。這需要你努力回收軟件界說(shuō)存儲(chǔ)要領(lǐng),在商用處事器上運(yùn)行,可是它比把Hadoop放在傳統(tǒng)SAN或NAS技能上高效得多,因?yàn)楹笳呓oHadoop造成了瓶頸。
2. 超融合vs漫衍式
不外要小心,別將超融合與漫衍式等量齊觀。某些超融合要領(lǐng)是漫衍式的,但這個(gè)術(shù)語(yǔ)凡是意味著你的應(yīng)用措施和存儲(chǔ)可以配合駐留在同一個(gè)計(jì)較節(jié)點(diǎn)上。辦理數(shù)據(jù)局部性問(wèn)題很誘人,可是這會(huì)造成嚴(yán)重的資源爭(zhēng)奪現(xiàn)象。 Hadoop應(yīng)用和存儲(chǔ)平臺(tái)將爭(zhēng)奪同樣的內(nèi)存和處理懲罰器資源。拉克希曼暗示,最虧得專(zhuān)用的應(yīng)用層上運(yùn)行Hadoop,在專(zhuān)用的存儲(chǔ)層中運(yùn)行漫衍式存儲(chǔ),從而充實(shí)操作緩存和分層技能,以辦理數(shù)據(jù)局部性和網(wǎng)絡(luò)機(jī)能開(kāi)銷(xiāo)。
3. 制止節(jié)制器阻塞點(diǎn)
他強(qiáng)調(diào)了做到這一點(diǎn)的一個(gè)重要方面――制止通過(guò)單一(或大概兩個(gè))點(diǎn)(好比傳統(tǒng)節(jié)制器)來(lái)處理懲罰數(shù)據(jù)。通過(guò)改而確生存儲(chǔ)平臺(tái)并行化,就能顯著提高機(jī)能。
另外,這種要領(lǐng)提供了增量可擴(kuò)展性。為數(shù)據(jù)湖添加容量就跟添加幾臺(tái)內(nèi)置閃存或旋轉(zhuǎn)磁盤(pán)的x86處事器一樣簡(jiǎn)樸。漫衍式存儲(chǔ)平臺(tái)可在須要時(shí)自動(dòng)添加容量、從頭平衡數(shù)據(jù)。
4. 反復(fù)數(shù)據(jù)刪除和壓縮
駕御大數(shù)據(jù)的一個(gè)要害部門(mén)是反復(fù)數(shù)據(jù)刪除和壓縮。Hedvig看到常見(jiàn)的大數(shù)據(jù)集可以縮減70%-90%。在PB級(jí)局限下,這意味著可節(jié)減數(shù)萬(wàn)美元的磁盤(pán)本錢(qián)。
拉克希曼說(shuō):“現(xiàn)代平臺(tái)提供了內(nèi)聯(lián)式(而不是處理懲罰后)反復(fù)數(shù)據(jù)刪除和壓縮。這意味著,假如不先以某種方法來(lái)縮減數(shù)據(jù),數(shù)據(jù)永遠(yuǎn)不會(huì)進(jìn)入到磁盤(pán),這大大淘汰了存儲(chǔ)數(shù)據(jù)所需的容量。”
5. 整合Hadoop刊行版
很多大組織都有多個(gè)Hadoop刊行版。大概是由于開(kāi)拓人員需要會(huì)見(jiàn)多個(gè)“版本”,可能業(yè)務(wù)部分久而久之回收了差異的版本。不管奈何,IT總部經(jīng)常最終認(rèn)真這些集群的日常維護(hù)和操縱。大數(shù)據(jù)數(shù)量真正開(kāi)始影響業(yè)務(wù)時(shí),存在多個(gè)Hadoop刊行版會(huì)導(dǎo)致效率低下。
拉克希曼說(shuō):“你可以建設(shè)一個(gè)單一、顛末反復(fù)數(shù)據(jù)刪除的壓縮數(shù)據(jù)湖,然后它可覺(jué)得Hadoop的多個(gè)實(shí)例提供數(shù)據(jù),從而得到數(shù)據(jù)效率。”
6. 對(duì)Hadoop虛擬化處理懲罰
虛擬化技能在企業(yè)界刮起了一場(chǎng)風(fēng)暴。在很多處所,如今高出80%的物理處事器已虛擬化。不外由于機(jī)能和數(shù)據(jù)局部性問(wèn)題,很多人制止了對(duì)Hadoop舉辦虛擬化處理懲罰。
拉克希曼說(shuō):“你可以對(duì)Hadoop或Spark舉辦虛擬化處理懲罰。”
7. 構(gòu)建彈性數(shù)據(jù)湖
構(gòu)建數(shù)據(jù)湖并非易事,但大數(shù)據(jù)存儲(chǔ)的需求大概需要數(shù)據(jù)湖。有很多要領(lǐng)可以著手構(gòu)建,但是哪一種才是符合的要領(lǐng)?符合的架構(gòu)有望構(gòu)建一個(gè)活潑、彈性的數(shù)據(jù)湖,可以存儲(chǔ)來(lái)自所有數(shù)據(jù)源、回收多種名目標(biāo)數(shù)據(jù),包羅布局化數(shù)據(jù)、非布局化數(shù)據(jù)和半布局化數(shù)據(jù)。更重要的是,它必需支持就在數(shù)據(jù)源處執(zhí)行應(yīng)用措施,而不是從長(zhǎng)途源處執(zhí)行,那樣需要移動(dòng)數(shù)據(jù)。