我時常聽創(chuàng)業(yè)者說本身的公司天天會出產(chǎn)/記錄許多的數(shù)據(jù),固然他們臨時還沒想大白怎么用這些數(shù)據(jù),但把這些數(shù)據(jù)都先存起來了。他們常常還說,通過這些數(shù)據(jù)他們的產(chǎn)物/處事將獲得很大的晉升,似乎這些數(shù)據(jù)就是公司的救世主一樣。我不想接頭這種概念正確與否,但想在這里表明兩個關(guān)于大數(shù)據(jù)的常見誤解:
一、數(shù)據(jù)不便是信息
常常有人把數(shù)據(jù)和信息看成同義詞來用。其實否則,數(shù)據(jù)指的是一個原始的數(shù)據(jù)點(無論是通過數(shù)字,文字,圖片照舊視頻等等),信息則直接與內(nèi)容掛鉤,需要有資訊性(informative)。數(shù)據(jù)越多,不必然就能代表信息越多,更能不能代表信息就會成比例增多。我們來看兩個簡樸的例子:
備份。許多人如今已經(jīng)會按期的對本身的硬盤舉辦備份。這個沒什么許多幾何表明的,每次備份城市締造出一組新的數(shù)據(jù),但信息并沒有增多。
多個社交網(wǎng)站上的信息。我們傍邊的許多人在多個社交網(wǎng)站上活潑,跟著我們上的社交網(wǎng)站越多,我們得到的數(shù)據(jù)就會成比例的增多,我們得到的信息固然也會增多,但卻不會成比例的增多。不光單因為我們會相互轉(zhuǎn)發(fā)摯友的微博(可能其他社交網(wǎng)站上的內(nèi)容),更因為許多內(nèi)容會十分雷同,有些微博固然詳細(xì)文字差異,但表達(dá)的內(nèi)容十分相似。
二、信息不便是伶俐(Insight)
好吧,此刻我們?nèi)コ藬?shù)據(jù)中所有反復(fù)的部門,也整合了內(nèi)容雷同的數(shù)據(jù),此刻我們剩下的全是信息了,這對我們就必然有用嗎?不必然,信息要能轉(zhuǎn)化成伶俐,至少要滿意一下三個尺度:
可破譯性。這大概是個大數(shù)據(jù)時代特有的問題,越來越多的企業(yè)天天城市出產(chǎn)出大量的數(shù)據(jù),卻還沒想好怎么用,因此,他們就將這些數(shù)據(jù)臨時非布局化(unstructured)的存儲起來。這些非布局化的數(shù)據(jù)卻不必然可破譯。好比說,你記錄了某客戶在你網(wǎng)站上三次翻頁的時距離斷:3秒,2秒,17秒,卻健忘標(biāo)注這三個時間到底代表了什么,這些數(shù)據(jù)是信息(非反復(fù)性),卻不行破譯,因此不行能成為伶俐。
關(guān)聯(lián)性。我們曾經(jīng)對關(guān)聯(lián)性的重要性舉辦過表明。這里不再贅述了,無關(guān)的信息,至多只是噪音。
新穎性。這個和我前文舉的誰人社交網(wǎng)站的例子雷同,差異的是,這里的新穎性許多時候無法僅僅按照我們手上的數(shù)據(jù)和信息舉辦判定。舉個例子,某電子商務(wù)公司通過一組數(shù)據(jù)/信息,闡明出了客戶愿意為當(dāng)天送貨的產(chǎn)物多付出10塊錢,然后又通過另一組完全獨立的數(shù)據(jù)/信息獲得了同樣的內(nèi)容,這樣的環(huán)境下,后者就不具備新穎性。不幸的是,許多時候,我們只有在處理懲罰了大量的數(shù)據(jù)和信息今后,才氣判定它們的新穎性。
說了這么多,是想表達(dá),,其實我們手上有用的數(shù)據(jù)并沒有我們想象的那么多——大數(shù)據(jù)自己就是個耍噱頭的詞。在如今這個年月,一個普通的創(chuàng)業(yè)公司天天就能出產(chǎn)1GB以上的數(shù)據(jù),稍微大一點的公司天天出產(chǎn)的數(shù)據(jù)都以TB來技能。但在費錢舉辦大數(shù)據(jù)闡明之前,我們要意識到,數(shù)據(jù)不代表信息,更不代表伶俐。