阿里巴巴計(jì)算平臺事業(yè)部資深技術(shù)專家莫問曾在2018云棲大會的演講中表示,阿里一直在尋找一種方式來開發(fā)一套統(tǒng)一的大數(shù)據(jù)引擎。“解決通用大數(shù)據(jù)計(jì)算需求,批流融合的計(jì)算引擎,才是大數(shù)據(jù)技術(shù)的發(fā)展方向,并且最終我們選擇了Flink。”
阿里集團(tuán)內(nèi)淘寶、天貓、天弘基金、菜鳥、工業(yè)大腦等諸多業(yè)務(wù)均大量應(yīng)用了實(shí)時(shí)計(jì)算技術(shù),在集團(tuán)外,也有包括眾安保險(xiǎn)、全民TV、新華智云、貴州茅臺等諸多公司的應(yīng)用案例。
當(dāng)?shù)貢r(shí)間1月8日,德國媒體率先爆料后,阿里和Data Artisan紛紛發(fā)布新聞稿確認(rèn)了雙方合作的消息。
在這個(gè)過程當(dāng)中,該團(tuán)隊(duì)不僅對Flink在性能和穩(wěn)定性上做出了很多改進(jìn)和優(yōu)化,同時(shí)在核心架構(gòu)和功能上也進(jìn)行了大量創(chuàng)新和改進(jìn)。
在微軟宣布GitHub免費(fèi)開放私有代碼庫的同一天,阿里巴巴確認(rèn)收購德國初創(chuàng)企業(yè)Data Artisan。后者創(chuàng)建的Apache Flink是全球頂級的開源流處理框架,它不但是雙十一大規(guī)模數(shù)據(jù)實(shí)時(shí)處理的秘密武器,更是荷蘭國際集團(tuán)、Netflix和Uber在內(nèi)的國際巨頭不可或缺的工具。
盡管鮮有人聽說,云服務(wù)器租用,但Flink技術(shù)距離我們并不遙遠(yuǎn)。每年雙十一阿里總部大屏幕的實(shí)時(shí)成交數(shù)字,就是通過巨大的網(wǎng)絡(luò)流量,匯總各地方的報(bào)表、數(shù)據(jù)庫,在毫秒級別時(shí)間進(jìn)行計(jì)算,并匯總為單一視圖的方式。
業(yè)內(nèi)人士分析,在云端、AI混戰(zhàn)中,全球廠商都在尋找關(guān)鍵技術(shù)來提升自己的競爭優(yōu)勢。此次收購后,F(xiàn)link必將轉(zhuǎn)化為阿里云的核心競爭力之一。但在流分析服務(wù)方面,亞馬遜和微軟早已經(jīng)實(shí)現(xiàn)托管的高速實(shí)時(shí)流分析服務(wù),阿里云還需進(jìn)一步完善。
“與阿里的合作可以讓我們上升一個(gè)新的維度,我們將有機(jī)會開拓新的領(lǐng)域,將公司成為更有價(jià)值的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)。”Data Artisan合伙人Kostas Tzoumas在新聞稿中表示。
業(yè)界認(rèn)為,阿里對Data Artisans的收購無疑可以進(jìn)一步整合Flink的整個(gè)生態(tài)資源,作出更有利于Flink發(fā)展的規(guī)劃。“與阿里的合作可以讓我們上升一個(gè)新的維度,我們將有機(jī)會開拓新的領(lǐng)域,使公司具有為更有價(jià)值的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)。”Data Artisan合伙人Kostas Tzoumas在新聞稿中表示。
基于Flink,阿里巴巴搭建的平臺于2016年正式上線,并從阿里巴巴的搜索和推薦這兩大場景開始實(shí)現(xiàn)。
Data Artisans由開源流處理框架Apache Flink的創(chuàng)建者Kostas Tzoumas等人于2014年創(chuàng)建。作為大數(shù)據(jù)流處理方面為數(shù)不多的前沿技術(shù),F(xiàn)link為企業(yè)部署大規(guī)模的數(shù)據(jù)處理解決方案,以便他們能夠即時(shí)響應(yīng)數(shù)據(jù),并做出更好更快的業(yè)務(wù)決策。
根據(jù)阿里最新發(fā)布的消息,在本月之內(nèi),阿里也將把內(nèi)部軟件Blink開源給整個(gè)社區(qū),這一凝結(jié)兩年多阿里開發(fā)人員心血、助力阿里各項(xiàng)核心業(yè)務(wù)的軟件即將被更多的企業(yè)和開發(fā)者使用。此外,阿里巴巴還將致力于推動Flink在生態(tài)上得到更多語言的支持,不僅僅是Java、Scala語言,甚至是機(jī)器學(xué)習(xí)下用的Python、Go語言。
遠(yuǎn)在此項(xiàng)投資公布的三年多前,阿里巴巴已經(jīng)成為Apache Flink框架的用戶。目前,阿里基于Flink開發(fā)的內(nèi)部平臺Blink已經(jīng)廣泛服務(wù)于阿里集團(tuán)內(nèi)外、包括廣告、搜索等大量核心實(shí)時(shí)業(yè)務(wù),并多次為雙十一的極端運(yùn)算要求賦能。
關(guān)于Flink在阿里巴巴的大規(guī)模應(yīng)用,莫問披露,F(xiàn)link最初上線阿里巴巴只有數(shù)百臺服務(wù)器,站群服務(wù)器,目前規(guī)模已達(dá)上萬臺,此等規(guī)模在全球范圍內(nèi)也是屈指可數(shù)的;基于Flink,阿里內(nèi)部積累起來的狀態(tài)數(shù)據(jù)已經(jīng)是PB級別規(guī)模;如今每天在阿里Flink的計(jì)算平臺上,處理的數(shù)據(jù)已經(jīng)超過萬億條;在峰值期間可以承擔(dān)每秒超過4.72億次的訪問,最典型的應(yīng)用場景是阿里巴巴雙11大屏。
以核心用戶Netflix為例,大型視頻內(nèi)容服務(wù)的處理需求之大幾乎是不可想象的。每天有超過1.09億的消費(fèi)者,通過在線用戶服務(wù)享受1.25億小時(shí)的電視和電影內(nèi)容。這對公司的數(shù)據(jù)提取管道和流處理引擎提出了很高的要求,這些引擎必須處理涉及12 PB數(shù)據(jù)和3萬億日常事件。
根據(jù)阿里巴巴Flink平臺開發(fā)負(fù)責(zé)人之一、高級技術(shù)專家王紹翾曾在接受InfoQ采訪中表示,2015年起,阿里巴巴就開始調(diào)研新一代流計(jì)算引擎。“我們當(dāng)時(shí)的目標(biāo)就是要設(shè)計(jì)一款低延遲、exactly once(一次就準(zhǔn)確)、流(運(yùn)算)和批(處理)統(tǒng)一的,能夠支撐足夠大體量的復(fù)雜計(jì)算的引擎。”
從微軟收購Github到IBM巨資334億美元收購開源軟件巨頭紅帽,收購具有獨(dú)特技術(shù)和資源的開源企業(yè),無疑是巨頭們在2018年最重要的并購趨勢之一。而本次阿里的收購,代表了全球第三大云廠商對這一前沿領(lǐng)域的技術(shù)布局。
據(jù)悉,Data Artisans所掌握的大數(shù)據(jù)流處理技術(shù)Flink可以在很大程度上解決越來越迫切的數(shù)據(jù)迅速處理問題。Flink核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎,其針對數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布、數(shù)據(jù)通信以及容錯(cuò)機(jī)制等功能。
隨著大數(shù)據(jù)、人工智能的興起及5G技術(shù)發(fā)展,即時(shí)性成為了各個(gè)領(lǐng)域的剛需。上述場景還可以延展至高速公路監(jiān)測、ADAS高級輔助駕駛、廣告推薦、電商搜索推薦、股票交易市場、金融實(shí)時(shí)智能反欺詐等產(chǎn)業(yè)端。