為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
6月5日上午,大數據前沿技術分論壇舉行,來自2017/17263.html">中國信通院云計算與大數據研究所工程師王卓為我們帶來了第八批大數據產品能力評測的精彩解讀。
2017/17263.html">中國信通院云計算與大數據研究所工程師王卓
大家好,昨天在主會場第八批整個大數據產品能力評測證書已經頒布了,今天我主要介紹評測詳細的情況。內容主要分四部分:總體介紹、測試觀察、詳細結果、未來展望。
一、總體介紹
這些年大數據軟件產業發展在不斷擴大,比例從2013年剛剛開始測評時的20%左右到現在已經達到30%多,按照預測增長趨勢還會不斷擴大。大數據產品能力評測促進了大數據軟件產業發展成熟,現有的評測體系包含多項多方面評測,既有已經展開的評測也有未來計劃開展的評測,免備案主機,測評項不只包含基礎能力還有相應的性能。目前共有112款產品通過評測,完成測試數量171個。
根據評測的數據統計,測評包括現在全球最大規模的測試數據集100TB,虛擬主機,測試最大基礎能力集群規模是10000節點批處理平臺,在性能測試規模測試中,華為300節點、阿里300節點、新華三200節點。下圖是對測評產品的統計,哪些企業具有更多的產品監測,前十有星環信息、阿里、騰訊云等。明顯可以看到這些產品的基礎能力和性能相對于其他的產品更加嚴格。
二、測試觀察
測試觀察部分主要針對這批產品能力測試的概覽,以及概覽中發現的一些有用信息。第八批里兩個比較有特點的是華為512節點大規模集群的能力和新華三200節點能力集群。
觀察一:大數據基礎產品的穩定與變化
分布式批處理平臺產品已經成熟穩定,總體來看73%的產品是基于HDP和CDH的開源版本進行二次開發,23%基于開源社區或者完全自研。經過10多年的發展,大數據基礎技術開源生態趨向成熟,國內技術人員對開源生態群體的熟悉程度逐漸增高。
觀察二:分布式分析數據庫規模不斷突破
分析型數據庫發展加快,部分原因是Greenplum的開源讓更多廠商能使用和研究分布式分析數據庫,據統計參與評測的14款MPP數據庫中43%都是基于Greenplum,14%基于PostgreSQL。分布式分析數據庫正在努力突破擴展性的限制,大規模能力有很大突破,華為完成了512節點基礎能力的測試,新華三完成了200節點性能的測試。
觀察三:分布式事務數據庫產品迎來春天
分布式事務數據評測只做了兩批,但是從兩批情況來看,已經測了十幾家。我們統計了國內超過20-30款產品,這兩批測評已經測了現有產品的近一半左右。從圖中可以看到,分布式事務數據庫基礎能力是在不斷提升的,兩批測評之間產品能力和水平都有了相應的提升。在架構方面,82%的產品是采用中間架構,18%的產品使用新型一致性協議。新型產品基于MySQL是最多的,現在基于PG的廠商正在興起。
觀察四:數據管理與數據集成
在數據管理、數據集成部分,近兩年,國內誕生了20多款數據管理軟件,由于開源生態缺乏,企業均自主研發數據管理工具。數據管理工具的標準化程度較低,需要進一步進行規范。數據集成工具是大數據生態很重要的組成,開源生態較為完備,大多數產品基于Kettle、Sqoop和Nifi等開源框架開發、少數企業進行自研。
觀察五:行業解決方案豐富多樣
在行業解決方案中,這里新加入了知識圖譜的測試。知識圖譜是跟行業非常相關的,我們測的有金融、公安、游戲行業。每個行業的形式都有很大不同,可能是對外的產品,也有可能是對內自用的,在這種差異化中可以看到測試項里,必選項很少,大部分是可選項。數據的接入以結構化為主,對于文本數據的關系、屬性識別還不完善,后續還值得加強,可能要有一些針對性的技術。通用知識圖譜構建工具需求巨大。在很多不同行業,在提供對外產品或者服務的時候,一般以對一個需求方直接進行結構化建設,但是如果有一個共通的產品而不是以介入化的方式做這個產品會是這樣一個結果。
三、詳細結果