假如你有一個(gè)方針,想得到所有這些數(shù)據(jù)的可操縱的看法,并一直在收集。那么,你如何確定模子的數(shù)據(jù),以便實(shí)際上可以得到這些看法,并答復(fù)你的業(yè)務(wù)問題?你的打算。當(dāng)籌劃階段不充實(shí)或不完全,其功效是可駭?shù)摹D敲搓U明和機(jī)能、數(shù)據(jù)完整性和安詳性的問題接踵而至,將會(huì)使日常的維護(hù)和成長(zhǎng)的本錢到達(dá)了不須要的程度。
在這篇文章中,先容了人們?cè)跀?shù)據(jù)籌備闡明建模時(shí)呈現(xiàn)的一些常見的錯(cuò)誤。假如被忽視,這些錯(cuò)誤大概會(huì)阻礙你的闡明,并影響你的看法。
讓我們從利用的東西或技能方面制止三種常見的數(shù)據(jù)建模的錯(cuò)誤開始,然后再到OLAP多維數(shù)據(jù)集和傳統(tǒng)的BI平臺(tái)上事情時(shí)大多碰著的4個(gè)問題。
制止常見的建模錯(cuò)誤
(1)開始實(shí)施時(shí)沒有明晰的動(dòng)作打算
當(dāng)涉及到的闡明,如數(shù)據(jù)客棧或Elasticube建模數(shù)據(jù)資源,至關(guān)重要的是要籌劃出它的方針是什么。有幾個(gè)原因,但主要的主題是,你不能有效地操作您的闡明資源,假如你沒有為他們的方針。設(shè)計(jì)一個(gè)數(shù)據(jù)模子,將答允企業(yè)用戶舉辦觀測(cè),如網(wǎng)絡(luò)流量和選擇,如為了闡明產(chǎn)物銷售模子,網(wǎng)絡(luò)流量和選擇的價(jià)值將遠(yuǎn)遠(yuǎn)差異。
最好的做法是為每個(gè)打算運(yùn)行闡明規(guī)模舉辦籌劃,設(shè)計(jì),并分派資源。這應(yīng)該在貿(mào)易智能(BI)項(xiàng)目籌劃階段和全面的需求獲取進(jìn)程中完成。當(dāng)談到實(shí)施變動(dòng)闡明方針時(shí),就會(huì)發(fā)此刻機(jī)能,安詳性和可行性的明明改進(jìn)。
將過多的數(shù)據(jù)包羅到一個(gè)資源這是大概的,回收傳統(tǒng)的東西大概會(huì)導(dǎo)致查詢時(shí)間和闡明慢下來;但縱然回收SiSense這樣一個(gè)平臺(tái),優(yōu)化那些復(fù)雜而差異的數(shù)據(jù)集機(jī)能時(shí),仍然需要小心制止存儲(chǔ)問題,數(shù)據(jù)復(fù)制,以及不須要的開銷。在另一方面,沒有包羅所有須要的數(shù)據(jù)來答復(fù)你的業(yè)務(wù)方針中列出的問題,這是更糟糕的。
這一步的籌劃將使你識(shí)別闡明模子的總體方針,并確保正確的數(shù)據(jù),包羅每個(gè)資源。
(2)沒有充實(shí)利用署理鍵
當(dāng)闡明來自多個(gè)來歷的數(shù)據(jù)時(shí),確保數(shù)據(jù)具有獨(dú)一標(biāo)識(shí)符的一種風(fēng)行的計(jì)策是提供署理鍵。然而,這并不老是須要的,或選擇利用替代密鑰是一種精采的做法。許多時(shí)候,數(shù)據(jù)有自然鍵(數(shù)據(jù)是一個(gè)獨(dú)一的值),而不消替代。這些值,如客戶的ID,社會(huì)安詳號(hào)碼,或已經(jīng)在利用的生意業(yè)務(wù)數(shù)據(jù)作為主密鑰的復(fù)合鍵,是不變的,足以保存所有的根基密鑰需要的特性。
在這里,有幾點(diǎn)要緊記:署理鍵不該該與數(shù)據(jù)有干系。也就是說,它不該該受業(yè)務(wù)法則的限制。這些法則可以跟著時(shí)間的推移而改變,并泛起以前的獨(dú)一的值。
署理鍵不該該的數(shù)據(jù)的干系。也就是說,它不該該受業(yè)務(wù)法則。這些法則可以隨時(shí)間改變和泛起先前獨(dú)一值非獨(dú)一。
主鍵應(yīng)該是相當(dāng)緊湊,大的,巨大的,3個(gè)或更多個(gè)字段的組合鍵大概是貧苦的。假如自然鍵候選者是緊湊和不變的獨(dú)一值,這大概沒有來由添加署理鍵。
當(dāng)利用署理鍵,打算系統(tǒng)老是利用雷同的技能生成獨(dú)一值,UUID,GUID,或max()+1.這將確保任何署理鍵確實(shí)是獨(dú)一的。
署理鍵存在某一行標(biāo)志奇特而不提供業(yè)務(wù)內(nèi)容。這是他們提供的代價(jià)。它們不該該被用于查詢,并顯示給終端用戶。假如是這樣,你此刻已經(jīng)引入了一個(gè)業(yè)務(wù)內(nèi)容,不該存在的數(shù)據(jù)的干系。從頭思量你的模子和查詢。
(3)不妥的定名尺度
假如定名尺度不妥,大概會(huì)影響與任何數(shù)據(jù)相關(guān)的勾當(dāng)。這是籌劃闡明資源的數(shù)據(jù)模子的一個(gè)重要步調(diào)。跳過這一步大概會(huì)導(dǎo)致許多不須要的貧苦和荊棘。來自多個(gè)源的搜集數(shù)據(jù)時(shí),這是出格真實(shí)。
數(shù)據(jù)的主要基本是一致的。這應(yīng)該擴(kuò)展到所提供的表、列、約束、法子等的名稱,以遵循一個(gè)尺度的定名約定,其長(zhǎng)處變得很是迅速。假如你試圖建設(shè)闡明的查詢,但你的表和法子在他們的名字后頭沒有任何邏輯,這將很難遵循。譬喻,假如你有這些表:
Production_MaterialsCosts
productionMachinesMaterialVendors
它大概是堅(jiān)苦的,但并不是不行能的,知道這些是如何標(biāo)志的,或是他們是什么,而不是每一次尋找他們。在數(shù)據(jù)模子中有一致性要更容易得多。這大概看起來像:
Production_MaterialsMaterial_Vendors
Production_MachinesMaterial_Costs
這是一個(gè)更好的方法來保持你的數(shù)據(jù)闡明處于正軌,并為數(shù)據(jù)模子提供一致性。
有跡象表白,在定名尺度中尚有很多利用的尺度要領(lǐng)。挑選一個(gè)適合您的組織事情并實(shí)現(xiàn)它,這是較量容易的。因此沒有須要回收奇特的定名約定。假如您是數(shù)據(jù)架構(gòu)師,第一次建設(shè)闡明框架,這是你的責(zé)任,以實(shí)現(xiàn)一個(gè)對(duì)將來的闡明師遵循的尺度。假如不這樣做是一種嚴(yán)重的疏忽。
(4)利用傳統(tǒng)東西事情時(shí)常見的錯(cuò)誤
回收傳統(tǒng)的BI東西或RAM麋集型內(nèi)存系統(tǒng)事情時(shí),以下的錯(cuò)誤價(jià)錢大概是極其昂貴的,SiSense用戶擔(dān)保快速高效的芯片數(shù)據(jù)引擎不再是一個(gè)問題。
(5)錯(cuò)誤的粒度級(jí)別