結構化數據 vs. 非結構化數據:結構化數據由明確定義的數據類型組成,其模式可以使其易于搜索。而非結構化數據通常由不容易搜索的數據組成,其中包括音頻、視頻和社交媒體發布等格式。
結構化數據 vs. 非結構化數據非結構化數據與結構化數據并不表示兩者之間存在真正的沖突。客戶不是基于他們的數據結構選擇,而是在使用他們的應用程序中選擇:關系數據庫用于結構化數據,大多數其他類型的應用程序用于非結構化數據。
然而,結構化數據分析的難易程度與非結構化數據的分析難度之間的關系日益緊張。結構化數據分析是一個成熟的流程和技術。非結構化數據分析是一個新興行業,在研發方面需投入大量的資金,但這不是一項成熟的技術。企業內部的結構化數據與非結構化數據問題決定了他們是否應該投資于非結構化數據的分析,以及將這二者結合是否成為一種更好的商業智能?
什么是結構化數據?
結構化數據通常駐留在關系數據庫(RDBMS)中。其字段存儲長度顯示數據電話號碼,社會安全號碼或郵政編碼。甚至像名稱這樣的可變長度的文本字符串也包含在記錄中,這使得它很容易搜索。只要數據是在RDBMS結構內創建的,數據就可以是人工或機器生成的。這種格式是搜索與人類產生的查詢和使用的數據和字段名稱類型的算法,如字母或數字、貨幣、日期。數據包含結構化數據的普通關系數據庫應用程序包括航空預訂系統、庫存控制、銷售事務和ATM活動。結構化查詢語言(SQL)允許在關系數據庫中查詢這種類型的結構化數據。
一些關系數據庫確實存儲或指向非結構化數據,例如客戶關系管理(CRM)應用程序。由于備忘錄字段不會將自己放到傳統的數據庫查詢中,美國服務器租用,因此其集成可能不理想。盡管如此,大部分客戶關系管理(CRM)數據都是結構化的。
什么是非結構化數據?
非結構化數據本質上是結構化數據之外的一切數據。非結構化數據具有內部結構,但不通過預定義的數據模型或模式進行結構化。它可能是文本的或非文本的,也可能是人為的或機器生成的。它也可以存儲在像NoSQL這樣的非關系數據庫中。
典型的人為非結構化數據包括:
文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
電子郵件:由于其元數據,電子郵件具有一些內部結構,人們有時將其稱之為半結構化。但是,其消息字段是非結構化的,傳統的分析工具無法解析它。
社交媒體:來自Facebook、Twitter和LinkedIn的數據。
網站:YouTube、Instagram、照片分享網站。
移動數據:短信、地點。
通信:聊天、即時消息、電話錄音、協作軟件。
媒體:MP3、數碼照片、音頻文件、視頻文件。
業務應用程序:MS Office文檔、生產力應用程序。
典型的機器生成的非結構化數據包括:
衛星圖像:天氣數據、地形、軍事活動。
科學數據:石油和天然氣勘探、空間勘探、地震圖像、大氣數據。
數字監控:監控照片和視頻。
傳感器數據:交通、天氣、海洋傳感器。
最具包容性的大數據分析可以使用結構化數據和非結構化數據。
結構化數據與非結構化數據:有什么區別?
除了存儲在關系數據庫和存儲在一個關系數據庫之外的明顯區別之外,域名注冊,最大的區別在于分析結構化數據與非結構化數據的便利性。針對結構化數據存在成熟的分析工具,但用于挖掘非結構化數據的分析工具正處于萌芽和發展階段。
用戶可以通過文本非結構化數據運行簡單的內容搜索。但是,缺乏有序的內部結構使得傳統數據挖掘工具的目標失敗,企業從富有價值的數據源(如媒體、網絡、博客、客戶交互,以及社交媒體數據)獲得的價值很小。即使非結構化數據分析工具在市場上出現,但沒有任何一個供應商或工具集是明確的贏家。許多客戶不愿意投資于具有不確定發展路線圖的分析工具。
除此之外,非結構化數據比結構化數據要多得多。非結構化數據占企業數據的80%以上,并且以每年55%和65%的速度增長。如果沒有工具來分析這些海量數據,組織會在商業智能表上留下大量有價值的數據。
傳統上,結構化數據對大數據應用程序來說更容易消化,但如今的數據分析解決方案正在這方面取得重大進展。
半結構化數據如何適用于結構化和非結構化數據
半結構化數據維護用于識別單獨數據元素的內部標記和標簽,從而實現信息分組和層次結構。文檔和數據庫都可以是半結構化的。這種類型的數據只代表結構化/半結構化/非結構化數據的5%-10%,但具有關鍵的業務用例。