一、目的:
為了實(shí)現(xiàn)公司項(xiàng)目對(duì)海量業(yè)務(wù)數(shù)據(jù)、文件進(jìn)行存儲(chǔ),系統(tǒng)間共享,并且達(dá)到以下幾點(diǎn)要求,可行方案hadoop集群。
? ? 數(shù)據(jù)安全?
? ? 需要實(shí)現(xiàn)數(shù)據(jù)冗余,避免數(shù)據(jù)的單點(diǎn)故障
? ? 可線性擴(kuò)展?
? ? 當(dāng)數(shù)據(jù)增長(zhǎng)到TB、甚至PB以上時(shí),存儲(chǔ)方案需要支持可線性擴(kuò)展
? ? 存儲(chǔ)高可用?
? ? 某個(gè)存儲(chǔ)服務(wù)宕掉時(shí),不影響整體存儲(chǔ)方案的可用
? ? 性能?
? ? 性能達(dá)到應(yīng)用要求
二、版本選擇:
目前而言,不收費(fèi)的Hadoop版本主要有三個(gè)(均是國(guó)外廠商),分別是:
Apache(最原始的版本,所有發(fā)行版均基于這個(gè)版本進(jìn)行改進(jìn))。
Hortonworks版本(Hortonworks Data Platform,簡(jiǎn)稱“HDP”)。
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡(jiǎn)稱CDH)。
對(duì)比:
(1)Apache版本建議學(xué)習(xí)使用,不建議在生產(chǎn)環(huán)境使用。
(2)Hortonworks 主打產(chǎn)品是Hortonworks Data Platform (HDP),也同樣是100%開源的產(chǎn)品,HDP除了常見的項(xiàng)目外還包含了Ambari,一款開源的安裝和管理系統(tǒng)。HCatalog,一個(gè)元數(shù)據(jù)管理系統(tǒng)。
(3)Cloudera 最成型的發(fā)行版本,擁有最多的部署案例。提供強(qiáng)大的部署、管理和監(jiān)控工具。Cloudera開發(fā)并貢獻(xiàn)了可實(shí)時(shí)處理大數(shù)據(jù)的Impala項(xiàng)目,Cloudera有免費(fèi)版和企業(yè)版,企業(yè)版只有60天試用期,不過基本上免費(fèi)版也滿足生產(chǎn)環(huán)境的使用,監(jiān)控工具為中文,不過Cloudera的代碼不開源,只能通過產(chǎn)生本身的BUG修改補(bǔ)丁升級(jí)等。
三、hortonworks簡(jiǎn)介
需求使用到的分別為Apache Ambari和HDP和HDP-UTILS。
Apache Ambari是一個(gè)基于web的工具,用于配置、管理和監(jiān)視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive應(yīng)用程序的能力,以友好的用戶界面對(duì)它們的性能特性進(jìn)行診斷。
HDP是hortonworks的軟件棧,里面包含了hadoop生態(tài)系統(tǒng)的所有軟件項(xiàng)目,比如HBase,Zookeeper,Hive,Pig等等。
HDP-UTILS是工具類庫。