欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據技術

大數據時代下的數據集成,與落伍的ETL技術

在大型企業中保證業務數據的一致性是一個非常棘手的問題。一般來說,如跨國型公司的客戶或產品相關數據,往往有多個來源。這就導致了,有時即使是最簡單的問題也很難回答。在此情況下,數據集成可能是成為一種解決辦法。

數據集成為組織提供了存儲在多個數據源中數據的統一視圖,而提取、轉換和加載(ETL)技術就是數據集成的早期嘗試。

使用ETL,可以從多個源事務系統提取、轉換和加載數據到單個位置,例如公司數據倉庫。提取和加載部分相對機械,但轉換部分不那么容易。為了實現這一點,您需要對業務規則進行定義,來解釋哪些轉換是有效的。

ETL與數據集成之間的一個主要區別是,數據集成是一個更廣泛的領域。它可能還包括數據質量和定義主引用數據的過程,例如在公司范圍內定義客戶、產品、供應商和其他與業務事務提供有關的關鍵信息。

數據分類與一致性

下面我們看一個例子。一個大的營業公司可能需要從幾個層次對產品和客戶進行分類,以分段分層展開營銷活動。對于該公司旗下規模較小的子公司,則可以通過簡單的產品和客戶分類層次結構來實現這一點。在這個例子中,規模更大的組織可能將一罐可樂歸類為碳酸飲料、一種飲料、食品和飲料銷售的一部分。然而,較小的子公司可能會把同樣的可樂歸入食品和飲料銷售,而沒有中間的分類。這就是為什么需要分類的一致性——或者至少是對差異的理解——來獲得公司整體銷售的全局視圖的原因。

不幸的是,知道你在和誰做生意并不總是那么簡單。例如,Shell U.K.是石油巨頭Royal Dutch Shell公司的子公司。像Aera Energy和Bonny Gas Transport這樣的公司都是Shell公司的實體,有些還有其他投資者。因此,與這些公司進行的業務交易,需要作為客戶添加到Shell公司的全局視圖中,但是從公司名稱來看,這種關系并不明顯。

著名投資銀行副總裁曾告訴筆者,他們不知道自己在全球范圍內做了多少業務,例如,德意志銀行(Deutsche bank),更不用說企業是否盈利,這些問題的答案埋在各種全球性投資銀行部門的系統內。

數據質量問題

ETL技術是解決這個問題的早期嘗試。但要正確獲得轉換步驟,您需要定義業務規則,制定什么樣的轉換是有效的——例如,如何匯總銷售事務或映射一個數據庫字段,當“m”用于定義男性顧客,而“male”用于另一個含義時。技術的發展對這一過程是有幫助的。

事實證明,實現集成化的數據比ETL和數據集成本身更廣泛。數據質量也是一個重要因素。如果發現客戶或產品文件中有重復的內容怎么辦?在筆者參與的一個項目中,有80%的客戶記錄都是重復的。這意味著,該公司的商業客戶數量只有它認為的五分之一。

在原材料中,主文件的重復率通常是20%到30%。當進行公司概述,需要匯總數據時,亞洲服務器,應該消除這些異常情況。

不斷增長的數據量

盡管數據集成對大公司來說有其優勢,但也不是沒有挑戰。如公司產生的非結構化數據的持續增長。

而且,由于數據以不同的格式保存——傳感器數據、web日志、呼叫記錄、文檔、圖像和視頻——ETL工具在這種環境中可能是無效的,因為它們在設計時并沒有考慮到這些因素。當存在大量數據或大數據時,這些工具也會遇到困難。如Apache Kafka等類似工具,試圖通過實時流數據來解決這個問題,香港服務器租用,這使他們能夠克服以前的消息總線方法對實時數據集成的限制。

從早期的ETL到現在,數據集成的相關技術、理念已經發生了很大的變化。但仍需要繼續保持不斷進化,以跟上企業持續變化的需求和大數據時代下不斷涌現的新型挑戰。

【凡本網注明來源非中國IDC圈的作品,均轉載自其它媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責?!?/p>

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 新乐市| 延寿县| 手游| 莫力| 府谷县| 榆林市| 铁岭县| 仙桃市| 丹寨县| 辽宁省| 宁海县| 台山市| 稻城县| 临沭县| 金乡县| 和平区| 南京市| 永德县| 兰考县| 龙山县| 龙井市| 株洲县| 台山市| 长乐市| 定州市| 松滋市| 嘉峪关市| 锡林浩特市| 宜春市| 合江县| 土默特右旗| 黎城县| 郑州市| 木兰县| 北安市| 石柱| 南澳县| 文水县| 长岭县| 高要市| 鄂伦春自治旗|