有關(guān)數(shù)據(jù)和數(shù)據(jù)闡明的放言高論觸目皆是,不絕有人申飭各大公司要籌劃得當(dāng)計謀來收集闡明大數(shù)據(jù),,并告誡不這么做大概帶來的不良效果。像《華爾街日報》克日就提到公司享有客戶數(shù)據(jù)這樣一個大寶藏,卻多半不知道該如何操作。有公司實驗從龐大的數(shù)據(jù)中獲取實際可用的信息,通過與他們相助,我們歸納了打點者在數(shù)據(jù)應(yīng)用上的四個通例錯誤。
錯誤一:沒有領(lǐng)略融合的觀念
阻礙大數(shù)據(jù)發(fā)揮代價的第一大挑戰(zhàn)就是兼容性和融合性。大數(shù)據(jù)的一個主要特點是其來歷多樣。然而,假如數(shù)據(jù)形式不溝通,或難以整合,則其來歷的多樣性將使公司難以削減開支,也無法為客戶締造代價。譬喻,在我們和一個相助項目中,該公司擁有富厚的數(shù)據(jù),記錄客戶的生意業(yè)務(wù)量和忠誠度,以及專門的在線欣賞行為數(shù)據(jù),可是鮮少交錯檢索這兩類數(shù)據(jù)來判定某種欣賞行為即為生意業(yè)務(wù)告竣的前兆。面臨這種挑戰(zhàn),公司建設(shè)了“數(shù)據(jù)湖”來容納大量非布局性數(shù)據(jù)。可是,這些公司可以或許加以操作的數(shù)據(jù)今朝都顯得混亂無章,只不外是一些文本,也就是說,當(dāng)這些數(shù)據(jù)只是普通的二進(jìn)制數(shù)字時,要將它們井井有條地存儲起來很是堅苦,要未來歷差異的它們整合起來更是難上加難。
錯誤二:沒有認(rèn)識到非布局化數(shù)據(jù)的范圍性
阻礙大數(shù)據(jù)發(fā)揮代價的第二大挑戰(zhàn)是其非布局化的特性。對文本數(shù)據(jù)的挖掘已經(jīng)有了出格的希望,其語境和技能所帶來的認(rèn)識與布局化數(shù)據(jù)雷同,只是其它形式的數(shù)據(jù)如視頻仍不易于闡明。舉個例子,固然擁有最先進(jìn)的人臉識別軟件,有關(guān)政府仍然無法從大量視頻中識別出波士頓馬拉松爆炸案中的兩名嫌疑人,因為該軟件尚在處理懲罰從差異角度拍攝的嫌疑人的照片。
固然從非布局性數(shù)據(jù)獲取信息面對挑戰(zhàn),可是各公司在操作這些數(shù)據(jù)劈頭晉升闡明已有數(shù)據(jù)的速度和準(zhǔn)確度上取得了顯著后果。好比,在石油和天然氣勘察中,人們就用大數(shù)據(jù)來優(yōu)化正在舉辦的操縱,以及針對地動鉆井的數(shù)據(jù)闡明。盡量他們所利用的數(shù)據(jù)在速度、種類和體積上都有大概增加,最終這些數(shù)據(jù)照舊用于同一個目標(biāo)。總之,一開始就但愿通過操作非布局性數(shù)據(jù)形成新的研究假設(shè)是站不住腳的,除非各公司通過“實踐”有了這種專業(yè)本領(lǐng),能操作非布局性數(shù)據(jù)優(yōu)化某個問題謎底。
錯誤三:覺得關(guān)聯(lián)闡明意義重大
第三大挑戰(zhàn)——我們認(rèn)為是阻礙大數(shù)據(jù)代價的最重要的影響因素——是視察數(shù)據(jù)的大量重疊使其因果干系難以明晰。大局限數(shù)據(jù)集往往包括浩瀚相似或完全一致的信息,直接導(dǎo)致錯誤的關(guān)聯(lián)闡明,誤導(dǎo)打點者的決定。克日《經(jīng)濟(jì)學(xué)人》指出“在大數(shù)據(jù)時代,彼此干系往往是本身表現(xiàn)出來的”,《斯隆打點評論》在博客中強(qiáng)調(diào)固然許多公司都能打仗到大數(shù)據(jù),可是這些數(shù)據(jù)并不“客觀”,因為問題在于要從中提煉出值得采納動作的信息。同樣,典范的用于闡明數(shù)據(jù)的呆板進(jìn)修算法所舉辦的關(guān)聯(lián)闡明并不必然會提供原因闡明,因而不會給出可執(zhí)行的打點意見。也就是說,讓大數(shù)據(jù)有利可圖的能力在于可以或許從僅僅視察到彼此干系轉(zhuǎn)變?yōu)檎_辨別何種關(guān)聯(lián)為因果形式,可以作為計謀辦法的基本。要做到這一點就必需逾越大數(shù)據(jù)。
谷歌趨勢是大數(shù)據(jù)的經(jīng)規(guī)類型,它操作谷歌搜索詞條整合記錄。然而,它也說明白僅僅用于關(guān)聯(lián)闡明的數(shù)據(jù)是毫無意義的。起初,研究人員稱數(shù)據(jù)可以用于反應(yīng)流感的流傳。然爾厥后,研究人員發(fā)明因為數(shù)據(jù)浮現(xiàn)的是已往,利用這些數(shù)據(jù)只能在近況與已往模式相關(guān)的環(huán)境下,稍微改進(jìn)應(yīng)對行為。
舉個更詳細(xì)的例子,假設(shè)一個鞋業(yè)銷售商向曾欣賞其網(wǎng)站的消費者投放告白。原始數(shù)據(jù)闡明認(rèn)為消費者看到這些告白會更愿意購置鞋子。但是,這些消費者在看到告白之前就已經(jīng)對該銷售商表示出了樂趣,因而比普通人更愿意舉辦生意業(yè)務(wù)。這個告白有效嗎?很難說。實際上,這里的大數(shù)據(jù)并沒有思量營銷流傳有效性的因果推論。要知道該告白是否有效,銷售商需要舉辦隨機(jī)檢測或試驗,選取一部門消費者不打仗這個告白。通過較量看了告白和沒看告白的消費者之間的購置率,公司才氣確定是否看到告白能讓消費者更愿意消費。這個案例中,代價主要不是通過數(shù)據(jù)締造的,而是通過設(shè)計、執(zhí)行以及闡釋重要的試驗來締造的。
這是個試驗,不是闡明視察到的大數(shù)據(jù)集來輔佐公司相識一段接洽到底是僅僅相關(guān)照舊因為回響潛在的因果干系而變得可以賴以作出判定。固然對付打點者來說,哪怕僅操作記錄消費者行為一拍字節(jié)的數(shù)據(jù)來晉升效益都很堅苦,可是較量參加了營銷勾當(dāng)?shù)目蛻艉蜎]有參加的客戶——按照試驗功效——可以或許讓營銷人員推論這個勾當(dāng)是否有利可圖。