中國高度重視大數(shù)據(jù)發(fā)展。我們秉持創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的發(fā)展理念,圍繞建設(shè)網(wǎng)絡(luò)強國、數(shù)字中國、智慧社會,全面實施國家大數(shù)據(jù)戰(zhàn)略,助力中國經(jīng)濟從高速增長轉(zhuǎn)向高質(zhì)量發(fā)展。
當前,我國數(shù)字經(jīng)濟總量已超過 22 萬億元,占 GDP 比重逾 30%, 中央政府對于發(fā)展大數(shù)據(jù)、人工智能等前沿科技產(chǎn)業(yè)極為重視。
大數(shù)據(jù)的定義
大數(shù)據(jù)是一個寬泛的概念,從 2001 年“大數(shù)據(jù)”一詞在 Gartner 的研究報告出現(xiàn)至今,大數(shù)據(jù)一直沒有統(tǒng)一的定義。
Gartner 認為大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
國際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的 4 個特征來定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價值(Value)。
維基百科對“大數(shù)據(jù)”的定義是“無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合”。
無論各方對于大數(shù)據(jù)的定義有何不同,但均體現(xiàn)了大數(shù)據(jù)“大”的特征。但體量大、結(jié)構(gòu)多樣體現(xiàn)更多的是數(shù)據(jù)特征,對于數(shù)據(jù)的處理與應(yīng)用,則需要新技術(shù)(新型計算架構(gòu)、智能算法等)、新理念與新知識。因此大數(shù)據(jù)不僅“大”,而且“新”,是新資源、新工具和新應(yīng)用的綜合體。
對于大數(shù)據(jù)的處理與應(yīng)用,則需要新技術(shù)(新型計算架構(gòu)、智能算法等)、新理念與新知識。因此大數(shù)據(jù)不僅“大”,而且“新”,是新資源、新工具和新應(yīng)用的綜合體。
大數(shù)據(jù)的四大特征
在IT界雖然對大數(shù)據(jù)都有著自己不同的解讀。但大家都普遍認為,大數(shù)據(jù)有著4“V”特征,即Volume(容量大)?Variety(種類多)?Velocity(速度快)和最重要的Value(價值密度低)。
Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。十幾年前,由于存儲方式?科技手段和分析成本等的限制,使得當時許多數(shù)據(jù)都無法得到記錄和保存。即使是可以保存的信號,也大多采用模擬信號保存,當其轉(zhuǎn)變?yōu)閿?shù)字信號的時候,由于信號的采樣和轉(zhuǎn)換,都不可避免存在數(shù)據(jù)的遺漏與丟失。那么現(xiàn)在,大數(shù)據(jù)的出現(xiàn),使得信號得以以最原始的狀態(tài)保存下來,數(shù)據(jù)量的大小已不是最重要的,數(shù)據(jù)的完整性才是最重要的。
Variety意味著要在海量?種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)。在互聯(lián)網(wǎng)時代,各種設(shè)備連成一個整體,個人在這個整體中既是信息的收集者也是信息的傳播者,加速了數(shù)據(jù)量的爆炸式增長和信息多樣性。這就必然促使我們要在各種各樣的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)信息之間的相互關(guān)聯(lián),把看似無用的信息轉(zhuǎn)變?yōu)橛行У男畔ⅲ瑥亩龀稣_的判斷。
Velocity可以理解為更快地滿足實時性需求。目前,對于數(shù)據(jù)智能化和實時性的要求越來越高,比如開車時會查看智能導(dǎo)航儀查詢最短路線,吃飯時會了解其他用戶對這家餐廳的評價,見到可口的食物會拍照發(fā)微博等諸如此類的人與人?人與機器之間的信息交流互動,這些都不可避免帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實時的方式呈獻給用戶。
大數(shù)據(jù)特征里最關(guān)鍵的一點,就是Value。Value的意思是指大數(shù)據(jù)的價值密度低。大數(shù)據(jù)時代數(shù)據(jù)的價值就像沙子淘金,數(shù)據(jù)量越大,里面真正有價值的東西就越少。現(xiàn)在的任務(wù)就是將這些ZB?PB級的數(shù)據(jù),利用云計算?智能化開源實現(xiàn)平臺等技術(shù),提取出有價值的信息,將信息轉(zhuǎn)化為知識,發(fā)現(xiàn)規(guī)律,最終用知識促成正確的決策和行動。
大數(shù)據(jù)的關(guān)鍵技術(shù)
大數(shù)據(jù)作為一種新興技術(shù),目前尚未形成完善、達成共識的技術(shù)標準體系。對大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(gòu)。
大數(shù)據(jù)參考架構(gòu)總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用的概念提供了一個構(gòu)件層級分類體系,即“角色—活動—功能組件”,歐洲服務(wù)器,用于描述參考架構(gòu)中的邏輯構(gòu)件及其關(guān)系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對IT技術(shù)產(chǎn)生的新需求所帶來的價值,“信息價值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法論對數(shù)據(jù)到知識的處理過程中所實現(xiàn)的信息流價值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。
大數(shù)據(jù)的關(guān)鍵技術(shù)有:
1、數(shù)據(jù)收集