在貴州舉辦的2019年數博會吸引了國內外各界目光,圍繞大數據最新技術創新與成就,諸多學界、產業界、政界人士紛紛參與交流。在5月25日的“5G+大數據推動智慧社會數字化轉型論壇”上,中科院院士梅宏發表了精彩演講,重點談到了大數據對計算體系帶來的挑戰以及應對之法。
梅宏作為大數據領域權威專家,對大數據學術研究、工具開發等方面有著深入的理解。他提到,大數據讓信息技術整個體系進入一個重構的前夜,大數據的管理、處理方式正在發生深刻改變。比如,在芯片上探討存算一體是一種可能的方向;比如,軟件定義可以做很多事情;比如,軟件開源+硬件開放有可能產生顛覆式機遇。
他提到了個人對于大數據的理解,談到了三個現實中的挑戰。但在挑戰背后,他們的團隊已經集結了最好的高校和阿里這種巨頭企業的技術,做完了三批課題。未來,將追求高時效、低時延,多計算模型的融合,打造出更多核心、關鍵、原創的技術。
演講原文如下,雷鋒網做了不改變原意的編輯與整理:
大數據導致了一個現象,就是信息技術整個體系進入一個重構前夜,實際上給了我們一個顛覆式發展的一種機遇。因為它和過去的東西確實不太一樣了。
個人對大數據的理解
我想分四個方面講。
第一,應用需求。大數據的應用需求,使得我們的計算機體系結構可能面臨重構的需要。比如,過去在單機體系結構,我們知道計算機處理的方式是強調I,強調O,所以我們是以CPU的處理能力為核心,數據是圍繞處理能力來走的。現在我們又出現了很多新的一些技術,比如新型存儲介質、新型運算器件,它使得我們的體系結構可能就會有一定的變革。怎么變革?會不會出現以數據為核心而計算圍在周邊的一種結構。現在就在芯片上探討存算一體——這是一種可能的方向。
第二,云計算模式領域化、資源泛載化,資源平臺化的大態勢。我們希望在服務質量提升、新型硬件管理、極致效能的追求方面做很多工作。同時我們也看到從云向邊轉變,這種云端融合,云邊端結合的新型計算也在涌現,還有軟件定義對整個世界所形成的影響。我們對數據管理、軟件開發運行、數據分析等等都有很多要求,都需要很多新的東西,這與過去是不一樣的。
第三,通信。5G能解決的通信問題,所以我們網絡通信還需要更好的帶寬、移動、泛載的發展。對于帶寬的問題,移動、泛載的問題,我們看到整個信息技術體系按照過去的發展套路,實際理論上還有很多值得探討的空間,在基礎器件上也有很多探討的空間,比如大數據組織、分析等等相關技術理論都有待突破。基礎器件,高性能、高時效、高吞吐等極端化的大數據需求,使得我們需要高通量的處理芯片,需要多通道數據化、可視設備等等。
第四,軟件開源,硬件開放,正在導致我們產業生態發生一些變化。實際上,顛覆式發展的機遇可能就在這個地方。
觀念變化:大數據的管理、處理
管理是數據的存儲、組織,而處理就是把數據并行處理為內容。
對于管理而言,比如說傳統數據庫、關系型數據庫,它的目標是什么?應用的通用性、數據的一致性、應用需求的處理方式和響應時間等方面都不同,使得很難有一種通用管理的方式。
由于無法定義一個模式,一致性也沒法保持,不能夠事先定義數據模式,就沒辦法保持它的事務性等數據的一致性。從性能上講,由于單一表格存儲、高性能是非常難以實現的,這就使得對大規模、多表關聯查詢及復雜分析類型的SQL查詢性能嚴重下降,這就是在大數據時代傳統數據庫做不了的事。
對于處理而言,實際上大體分成三個階段:前大數據時代,大數據早期、現在。
早期都是關系型數據庫再到后來的SQL,這是在管理層面走過的一些路徑。從分析上面,比如說面向大數據分析軟件、深度學習的一些發展,大體上是把前面的東西再做一個總結。當然,支撐的東西都是在計算里面的分布式處理和實時集散這些相關的概念,都是計算基礎的支撐。
傳統關系數據庫雖然還在廣泛使用,結構化數據還是我們很有用的一些東西。但是NoSQL和NewSQL都在快速發展,我們可以看到2011年的NoSQL和NewSQL的比例在增長,市場份額在擴大。也就使得我們數據庫管理系統發展觀念的轉變,傳統關系數據庫一招通吃天下,變成了我們在一個領域里面個通用的平臺。
大數據處理——為什么要談這件事情?