大數(shù)據(jù)就像是從當(dāng)代數(shù)據(jù)環(huán)境中不斷涌現(xiàn)出的豐富的、極度膨脹的資源。如今,不斷擴(kuò)張的物聯(lián)網(wǎng)、隨處可見的移動(dòng)設(shè)備、社交媒體、點(diǎn)擊流量、網(wǎng)頁(yè)以及開放的數(shù)據(jù)都是導(dǎo)致我們今日數(shù)據(jù)不斷增長(zhǎng)的的主要因素。根據(jù)IDC-Seagate最近的一項(xiàng)研究顯示,截止到2025年,這些因素的導(dǎo)致的全球數(shù)據(jù)增長(zhǎng)預(yù)計(jì)將是現(xiàn)在的10倍,總計(jì)達(dá)到163ZB(ZB為十萬(wàn)億億字節(jié))。
雖然數(shù)據(jù)資源富足,歐洲主要代理 德國(guó)服務(wù)器,但這些數(shù)據(jù)都是最原始的、未經(jīng)提煉的,其中存在大量不能用的數(shù)據(jù)。與其他”自然”資源一樣,“原始的”數(shù)據(jù)必須經(jīng)過提煉后,東亞服務(wù)器 臺(tái)灣服務(wù)器,才能被用于生產(chǎn)目的,例如設(shè)備維護(hù)、產(chǎn)品創(chuàng)新、競(jìng)爭(zhēng)情報(bào)、市場(chǎng)營(yíng)銷以及數(shù)據(jù)貨幣化等等。
數(shù)據(jù)細(xì)化、提煉的過程可以納入數(shù)據(jù)探查,準(zhǔn)備,關(guān)聯(lián)和背景化,標(biāo)注和注釋,統(tǒng)一和整合以及安全和治理政策的應(yīng)用。 元數(shù)據(jù)也是一個(gè)重要的組成部分,它在數(shù)據(jù)整體細(xì)化過程中輸入、輸出階段起著十分重要的作用。
其中,數(shù)據(jù)探查主要是對(duì)數(shù)據(jù)進(jìn)行技術(shù)性分析,對(duì)數(shù)據(jù)的內(nèi)容、一致性和結(jié)構(gòu)進(jìn)行描述。數(shù)據(jù)探查擔(dān)負(fù)著兩種不同的目標(biāo):戰(zhàn)略性的和戰(zhàn)術(shù)性的。
戰(zhàn)略性:一旦確定了某個(gè)候選數(shù)據(jù)源,就應(yīng)當(dāng)進(jìn)行一次輕量級(jí)的探查評(píng)估來確定該數(shù)據(jù)源是否適合于包含到數(shù)據(jù)倉(cāng)庫(kù)中,針對(duì)早期的采納/不采納問題提供決策。理想情況下,應(yīng)當(dāng)在業(yè)務(wù)需求分析過程中確定出一個(gè)候選數(shù)據(jù)源之后立即進(jìn)行戰(zhàn)略性評(píng)估。較早地找出那些不合格的數(shù)據(jù)源是一個(gè)責(zé)任重大的步驟,即使帶來的是壞消息,也是必要的一步。如果很晚才發(fā)現(xiàn)數(shù)據(jù)源無(wú)法支持要做的工作,對(duì)DW/BI團(tuán)隊(duì)的積極性將產(chǎn)生重大的打擊,特別是當(dāng)項(xiàng)目已經(jīng)展開數(shù)月之后才發(fā)現(xiàn)數(shù)據(jù)源存在問題時(shí)更是如此;
戰(zhàn)術(shù)性:一旦將某個(gè)數(shù)據(jù)源引入項(xiàng)目的基本戰(zhàn)略決策已經(jīng)定下來,就需要進(jìn)行一系列戰(zhàn)術(shù)性的數(shù)據(jù)探查工作來盡可能多地確定出各種問題。通常這一工作從數(shù)據(jù)建模過程就開始了,一直到ETL系統(tǒng)設(shè)計(jì)過程。有時(shí)ETL團(tuán)隊(duì)也可能需要使用一個(gè)其內(nèi)容沒有經(jīng)過徹底評(píng)估的數(shù)據(jù)源。系統(tǒng)也可能支持產(chǎn)品過程的需求,但是卻存在ETL方面的難題,因?yàn)閷?duì)產(chǎn)品處理并不重要的字段用來進(jìn)行分析也是不可靠和不完整的。
該子系統(tǒng)中揭示出來的問題最終會(huì)產(chǎn)生兩種詳細(xì)說明:
1、將數(shù)據(jù)送回原來的數(shù)據(jù)源中,請(qǐng)求改善數(shù)據(jù)質(zhì)量;
2、構(gòu)成了數(shù)據(jù)質(zhì)量子系統(tǒng)的需求。
(備注:元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù),主要是描述數(shù)據(jù)屬性的信息,用來支持如指示存儲(chǔ)位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須在描述并收藏?cái)?shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。)
如果還沒有為分析提供數(shù)據(jù),那么這些數(shù)據(jù)可能會(huì)受到碎片化、最小化標(biāo)記和丟失信息的影響。這些特征在電子健康記錄(EHRs)中很明顯,這說明了優(yōu)化數(shù)據(jù)面對(duì)的挑戰(zhàn)。收集和分析EHR數(shù)據(jù)的其中的一個(gè)障礙就是缺乏適當(dāng)?shù)臉?biāo)簽和一致的語(yǔ)義的缺乏。
EHRs的設(shè)計(jì)主要是為了滿足病人的醫(yī)療、行政和經(jīng)濟(jì)的需要。埃爾斯的多用途目標(biāo)——不考慮每一種數(shù)據(jù)的數(shù)據(jù)分析——可能造成數(shù)據(jù)碎片化,這需要在為臨床研究等分析提供數(shù)據(jù)之前進(jìn)行糾正。
從共享患者健康記錄中構(gòu)建數(shù)據(jù)集的另一個(gè)挑戰(zhàn)是在衛(wèi)生保健組織中如何實(shí)現(xiàn)EHRs的標(biāo)準(zhǔn)化,甚至在相同的衛(wèi)生保健系統(tǒng)中也缺乏標(biāo)準(zhǔn)化。。例如,不同的部門(例如:同一家醫(yī)院的放射學(xué)、整形和內(nèi)醫(yī)學(xué))可能采用不同的方法來滿足他們獨(dú)特的數(shù)據(jù)輸入需求、文檔和排序需求,以及偏好,因此,會(huì)產(chǎn)生數(shù)據(jù)倉(cāng)。
(備注:電子健康記錄(EHR,electronic health record)是個(gè)人官方的健康記錄,這些記錄可以在多個(gè)設(shè)備和機(jī)構(gòu)中共享。一個(gè)電子健康記錄通常包括:聯(lián)系方式;訪問醫(yī)護(hù)專業(yè)人員信息;過敏史;醫(yī)療保險(xiǎn)信息;家族遺傳病史;免疫狀況;身體狀況或疾病信息;服用藥物清單;住院記錄;做手術(shù)信息等
事實(shí)上,數(shù)據(jù)安全和隱私也可能成為分析受監(jiān)管數(shù)據(jù)的障礙,比如在EHRs中??朔@一障礙的最佳方法是在細(xì)化過程中應(yīng)用適當(dāng)?shù)陌踩院椭卫?。谷歌等公司正在試?yàn)聯(lián)邦學(xué)習(xí),以推進(jìn)分析,同時(shí)確保隱私。
數(shù)據(jù)的優(yōu)化對(duì)于從數(shù)據(jù)分析中獲得可靠結(jié)果是至關(guān)重要的,數(shù)據(jù)分析包括有意義的結(jié)論、準(zhǔn)確的預(yù)測(cè)和明智的決策。
事實(shí)上,與任何虛擬化一樣,數(shù)據(jù)虛擬化是一種允許用戶訪問、管理和優(yōu)化異構(gòu)基礎(chǔ)架構(gòu)的方法,就好像它們是一種單一、且在邏輯上是統(tǒng)一的資源一樣。這使得用戶能夠從一些服務(wù)、功能或其他資源的內(nèi)部部署中對(duì)外部界面進(jìn)行抽象化。