欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數(shù)據(jù)資訊

Hive和Spark究竟是憑借什么優(yōu)勢而大獲成功?

Hive和Spark憑借其在處理大規(guī)模數(shù)據(jù)方面的優(yōu)勢大獲成功,換句話說,它們是做大數(shù)據(jù)分析的。本文重點闡述這兩種產(chǎn)品的發(fā)展史和各種特性,通過對其能力的比較,來說明這兩個產(chǎn)品能夠解決的各類復雜數(shù)據(jù)處理問題。

什么是Hive?

Hive是在Hadoop分布式文件系統(tǒng)上運行的開源分布式數(shù)據(jù)倉庫數(shù)據(jù)庫,用于查詢和分析大數(shù)據(jù)。數(shù)據(jù)以表格的形式存儲(就像關系數(shù)據(jù)庫管理系統(tǒng)一樣)。數(shù)據(jù)操作可以使用名為HiveQL的SQL接口來執(zhí)行。Hive在Hadoop之上引入了SQL功能,使其成為一個水平可擴展的數(shù)據(jù)庫,是DWH環(huán)境的絕佳選擇。

Hive發(fā)展史掠影

Hive(即后來的Apache)最初是由Facebook開發(fā)的,開發(fā)人員發(fā)現(xiàn)他們的數(shù)據(jù)在幾天內出現(xiàn)了從GBs到TBs的指數(shù)級增長。當時,F(xiàn)acebook使用Python將數(shù)據(jù)加載到RDBMS數(shù)據(jù)庫中。因為RDBMS數(shù)據(jù)庫只能垂直伸縮,很快就面臨著性能和伸縮性問題。他們需要一個可以水平伸縮并處理大量數(shù)據(jù)的數(shù)據(jù)庫。Hadoop在當時已經(jīng)很流行了;不久之后,構建在Hadoop之上的Hive出現(xiàn)了。Hive與RDBMS數(shù)據(jù)庫類似,但不是完整的RDBMS。

什么選擇Hive?

選擇Hive的核心原因是它是運行在Hadoop上的SQL接口。此外,它還降低了MapReduce框架的復雜性。Hive幫助企業(yè)在HDFS上執(zhí)行大規(guī)模數(shù)據(jù)分析,使其成為一個水平可伸縮的數(shù)據(jù)庫。它的SQL接口HiveQL使具有RDBMS背景的開發(fā)人員能夠構建和開發(fā)性能、使拓展的數(shù)據(jù)倉庫類型框架。

Hive特性和功能

Hive具有企業(yè)級的特性和功能,可以幫助企業(yè)構建高效的高端數(shù)據(jù)倉庫解決方案。

其中一些特性包括:

Hive使用Hadoop作為存儲引擎,僅在HDF上運行。 專門為數(shù)據(jù)倉庫操作而構建的,不適用于OLTP或OLAP。 HiveQL作為SQL引擎,能夠幫助為數(shù)據(jù)倉庫類型操作構建復雜的SQL查詢。Hive可以與其他分布式數(shù)據(jù)庫(如HBase)和NoSQL數(shù)據(jù)庫(如Cassandra)集成。

Hive結構

Hive架構非常簡單。它有一個Hive接口,并使用HDFS跨多個服務器存儲數(shù)據(jù),用于分布式數(shù)據(jù)處理。

用于數(shù)據(jù)倉庫系統(tǒng)的Hive

Hive是專為數(shù)據(jù)倉庫操作構建的數(shù)據(jù)庫,尤其是那些處理萬億字節(jié)或千兆字節(jié)數(shù)據(jù)的數(shù)據(jù)庫。與RDBMS的數(shù)據(jù)庫類似,但不完全相同。如前所述,它是一個水平擴展的數(shù)據(jù)庫,并利用了Hadoop的功能,使其成為一個快速執(zhí)行的高規(guī)模數(shù)據(jù)庫。它可以在數(shù)千個節(jié)點上運行,并且可以利用商用硬件。這使得Hive成為一款具有高性能和可擴展性的高性價比產(chǎn)品。

Hive集成功

由于支持ANSI SQL標準,Hive可以與HBase和Cassandra.等數(shù)據(jù)庫集成。這些工具對SQL的支持有限,可以幫助應用程序對更大的數(shù)據(jù)集執(zhí)行分析和報告。Hive還可以與Spark、Kafka和Flume等數(shù)據(jù)流工具集成。

Hive的局限性

Hive是一個純數(shù)據(jù)倉庫數(shù)據(jù)庫,以表的形式存儲數(shù)據(jù)。因此,它只能處理使用SQL查詢讀寫的結構化數(shù)據(jù),不能用于非結構化數(shù)據(jù)。此外,Hive也不適合OLTP或OLAP操作。

什么Spark?

Spark是一個分布式大數(shù)據(jù)框架,幫助提取和處理大量RDD格式的數(shù)據(jù),以便進行分析。簡而言之,它不是一個數(shù)據(jù)庫,而是一個框架,可以使用RDD(彈性分布式數(shù)據(jù))方法從數(shù)據(jù)存儲區(qū)(如Hive、Hadoop和HBase)訪問外部分布式數(shù)據(jù)集。由于Spark在內存中執(zhí)行復雜的分析,所以運行十分迅速。

什么Spark Streaming?

Spark Streaming是Spark的一個擴展,它可以從Web源實時流式傳輸實時數(shù)據(jù),以創(chuàng)建各種分析。盡管有其他工具,如Kafka和Flume可以做到這一點,但Spark成為一個很好的選擇,執(zhí)行真正復雜的數(shù)據(jù)分析是必要的。Spark有自己的SQL引擎,與Kafka和Flume集成時運行良好。

Spark發(fā)展史掠影

Spark是作為MapReduce的替代方案而提出的,MapReduce是一種緩慢且資源密集型的編程模型。因為Spark對內存中的數(shù)據(jù)進行分析,所以不必依賴磁盤空間或使用網(wǎng)絡帶寬。

什么選擇Spark?

Spark的核心優(yōu)勢在于它能夠執(zhí)行復雜的內存分析和高達千兆字節(jié)的數(shù)據(jù)流大小,使其比MapReduce更高效、更快。Spark可以從Hadoop上運行的任何數(shù)據(jù)存儲中提取數(shù)據(jù),并在內存中并行執(zhí)行復雜的分析。此功能減少了磁盤輸入/輸出和網(wǎng)絡爭用,將其速度提高了十倍甚至一百倍。另外,Spark中的數(shù)據(jù)分析框架還可以使用Java、Scala、Python、R甚至是SQL來構建。

Spark架構

Spark體系結構可以根據(jù)需求而變化。通常,Spark體系結構包括Spark流、Spark SQL、機器學習庫、圖形處理、Spark核心引擎和數(shù)據(jù)存儲(如HDFS、MongoDB和Cassandra)。

Spark特性和功能

閃電般快速的分析

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 平陆县| 长丰县| 安陆市| 景东| 邓州市| 焦作市| 汉阴县| 南漳县| 类乌齐县| 泗阳县| 三门峡市| 井研县| 蒙城县| 保德县| 南投县| 灵川县| 江都市| 宜君县| 儋州市| 交口县| 阿克陶县| 盈江县| 临泉县| 延庆县| 昭平县| 前郭尔| 石首市| 鹤峰县| 北川| 紫金县| 汝城县| 博兴县| 常宁市| 灵川县| 杨浦区| 清原| 克拉玛依市| 报价| 宜兰县| 永胜县| 兰坪|