摘要:通過對數(shù)據(jù)處理階段性發(fā)展的解析,分析大數(shù)據(jù)、人工智能技術的發(fā)展趨勢。結合實際生產需求,驗證了基于容器云架構的新一代大數(shù)據(jù)與人工智能平臺在數(shù)據(jù)分析、處理、挖掘等方面的強大優(yōu)勢。
關鍵詞:大數(shù)據(jù) 人工智能 云計算 Docker 基礎能力 多租戶
Abstract:Through analyzing the staged development of data processing, this paper analyzes the development trend of big data and AI technology. According to the requirement of customers, the new generation of big data and AI platform based on Docker Cloud verify the powerful advantages in data analysis, processing, mining and so on.
Key Words:Big data; AI; cloud computing; Docker;basic abilities; Multi-tenant
引言
人工智能、大數(shù)據(jù)與云計算三者有著密不可分的聯(lián)系。人工智能從1956年開始發(fā)展,歐洲服務器租用 云服務器,在大數(shù)據(jù)技術出現(xiàn)之前已經發(fā)展了數(shù)十年,幾起幾落,但當遇到了大數(shù)據(jù)與分布式技術的發(fā)展,解決了計算力和訓練數(shù)據(jù)量的問題,開始產生巨大的生產價值;同時,大數(shù)據(jù)技術通過將傳統(tǒng)機器學習算法分布式實現(xiàn),向人工智能領域延伸;此外,directadmin漢化 虛擬主機,隨著數(shù)據(jù)不斷匯聚在一個平臺,企業(yè)大數(shù)據(jù)基礎平臺服務各個部門以及分支機構的需求越來越迫切。通過容器技術,在容器云平臺上構建大數(shù)據(jù)與人工智能基礎公共能力,結合多租戶技術賦能業(yè)務部門的方式將人工智能、大數(shù)據(jù)與云計算進行融合。
數(shù)據(jù)處理的發(fā)展階段
隨著信息技術的蓬勃發(fā)展,特別是近十年,移動互聯(lián)技術的普及,運營商、泛金融、政府、大型央企、大型國企、能源等領域數(shù)據(jù)量更是呈現(xiàn)幾何級數(shù)的增長趨勢。數(shù)據(jù)量的膨脹除了帶來了數(shù)據(jù)處理性能的壓力外,數(shù)據(jù)種類的多樣性也為數(shù)據(jù)處理手段提出了新的要求,大量新系統(tǒng)的建設同時產生了眾多數(shù)據(jù)孤島,給企業(yè)的數(shù)據(jù)運營維護與價值發(fā)掘帶來了重大的挑戰(zhàn)。隨著大數(shù)據(jù)技術的不斷發(fā)展,企業(yè)的數(shù)據(jù)處理技術轉型也經歷了幾個階段,如圖1所示。
▲圖1 企業(yè)數(shù)據(jù)處理轉型的階段變化
在第一階段,大數(shù)據(jù)技術發(fā)展的早期,為了打破數(shù)據(jù)孤島,將各類數(shù)據(jù)向大數(shù)據(jù)平臺匯集,形成數(shù)據(jù)湖的概念,作為多源、異構的數(shù)據(jù)的數(shù)據(jù)歸集,在此基礎上進行數(shù)據(jù)標準化,建立企業(yè)數(shù)據(jù)的匯聚中心。在這個階段,對非結構化數(shù)據(jù)處理以存儲檢索為主,對結構化數(shù)據(jù)處理提供各類API和少量SQL支持,使海量的以SQL實現(xiàn)為主的業(yè)務難以遷移到大數(shù)據(jù)平臺,新業(yè)務開發(fā)使用門檻高,大數(shù)據(jù)技術的推廣受到阻礙。
在第二階段,企業(yè)客戶的需求集中表現(xiàn)為,如何更好地處理結構化數(shù)據(jù)以及將老的IT架構遷移到分布式架構中。各大數(shù)據(jù)平臺廠商開始在SQL on Hadoop領域進行研發(fā)和競爭,不斷提高SQL標準的兼容程度。在這個過程中,Spark誕生并逐漸取代了過于笨重且TB量級計算性能存在缺陷的MapReduce架構,Hadoop技術開始向結構化數(shù)據(jù)處理分析更深度的應用領域進發(fā)。隨著SQL on Hadoop技術的不斷發(fā)展與星環(huán)科技解決了Hadoop分布式事務的難題,越來越多的客戶在Hadoop上構建新一代數(shù)據(jù)倉庫,將Hadoop技術應用于越來越多的業(yè)務生產場景,技術門檻的降低,使越來越多的客戶可以利用強大的分布式計算能力輕松分析處理海量數(shù)據(jù)。在這個階段后期,隨著企業(yè)客戶對實時數(shù)據(jù)分析研判需求的不斷提高,流處理技術得以蓬勃發(fā)展。
在第三階段,一部分企業(yè)已經完成了由基于關系型數(shù)據(jù)庫為核心的數(shù)據(jù)處理體系向基于大數(shù)據(jù)技術為核心的數(shù)據(jù)處理體系的轉變。在本階段早期,很多企業(yè)客戶不滿足于通過SQL基于統(tǒng)計對數(shù)據(jù)的分析和挖掘,促使傳統(tǒng)的機器學習算法開始實現(xiàn)分布化,但主要還是針對結構化數(shù)據(jù)的學習挖掘。隨著深度學習技術和分布式技術的碰撞,演化出了新一代的計算框架,如TensorFlow等,計算能力的提升,并結合大量訓練數(shù)據(jù),使機器學習人工智能技術在結構化與非結構化數(shù)據(jù)領域產生巨大威力,開始應用于人臉識別、車輛識別、智能客服、無人駕駛等領域;同時,對傳統(tǒng)機器學習算法產生了巨大沖擊,一定程度上減少了對特征工程與業(yè)務領域知識的依賴,降低了機器學習的進入門檻,使人工智能技術得以普及。另一方面,可視化的拖拽頁面、豐富的行業(yè)模板、高效率的交互式體驗,極大地降低了數(shù)據(jù)分析人員的使用門檻,讓人工智能技術進一步走入企業(yè)的生產應用。
大數(shù)據(jù)、人工智能與云技術的融合