2018年2月,春節(jié)剛過,北京還籠罩在霧霾中,上地某酒店,服務(wù)器租用,阿里云工程師們摩拳擦掌。
他們從115科技“踩點”回后,推演了各種可能,確保萬無一失,遂決定正式啟動“肯尼亞”遷移項目。
肯尼亞,橫跨赤道,是野生動物的王國,每年7-9月都會上演最為傳奇的動物大遷徙。
在阿里云內(nèi)部,“肯尼亞”遷移項目指115科技的數(shù)據(jù)大遷移。
115科技是一家成立十年、以云存儲起步的高新技術(shù)企業(yè),旗下核心產(chǎn)品之一“115個人”(原“115網(wǎng)盤”)是國內(nèi)最早一批上線的云盤產(chǎn)品。
但做云盤的苦,只有做過才知道。出于自身發(fā)展的綜合考量,115科技決定上云。
1. 差點用勞斯萊斯運冰塊
2009年“115個人”產(chǎn)品上線后,115科技喊出「改變分享」的口號,以便捷的文件分享功能贏得海量用戶的喜愛,且不放廣告、不限速,用戶體驗好。一時間,幾乎全國各大論壇、軟件廠商、游戲廠商、設(shè)計論壇、教育機構(gòu)、漫畫及影視行業(yè)全部在用“115個人”進行文件分享。
到2017年底,115科技個人注冊用戶接近1.5億,隨之而來的是,硬件成本節(jié)節(jié)攀升,要不斷地租機房、買機器,繁重的運維工作如排山倒海襲來。
115科技日常需要運行維護接近5000臺服務(wù)器,安置在廣東東莞、梅州、佛山等地的數(shù)據(jù)中心,共約10萬塊硬盤。硬盤不斷讀寫數(shù)據(jù),損耗極大。
硬盤一旦損壞,就需要及時的備份恢復(fù)。115科技為此專門組建了一支“救火隊“——七人換盤小分隊。
隊員們背景各異,有設(shè)備運維,有網(wǎng)絡(luò)維護,也有幫忙搬運設(shè)備的廚房工作人員等。需要換盤時大家實時響應(yīng),平時就從事本職工作。
“救火隊”的工作龐雜,不僅要換盤,有時數(shù)據(jù)中心沒有硬盤備份時,他們還要集體出動采購硬盤,或從其他機房開車運送硬盤。甚至機房制冷供電系統(tǒng)出現(xiàn)故障,也要第一時間趕到檢修。
有一次大朗機房空調(diào)制冷出現(xiàn)問題,小分隊需要運送冰塊到現(xiàn)場,由于當(dāng)天公司還有其他接待任務(wù),車輛緊張,還差點動用公司的勞斯萊斯運冰塊。小分隊在機房蹲了一夜,用風(fēng)扇吹冰塊為設(shè)備降溫,并密切關(guān)注是否有硬盤損壞,以備隨時更換重啟。
作為網(wǎng)盤行業(yè)的資深玩家,115科技的存儲技術(shù)已經(jīng)爐火純青,卻吃夠了硬件的苦頭。
同時,網(wǎng)盤的市場格局也在不斷變化,用戶對網(wǎng)盤的體驗提出了一些新要求。是繼續(xù)把精力耗損在維護硬件上,還是把所有精力集中在業(yè)務(wù)創(chuàng)新?115科技走到了岔路口。
2.上云,要上云
必須上云,上云才能解決問題。
這個決定來的突然但是堅決。2017年12月,115科技創(chuàng)始人賴霖楓忽然召集核心成員開會,傳達了這個決定。沒人有異議。但所有人都知道,這不是一件容易的事,畢竟115科技的數(shù)據(jù)量已經(jīng)到了100PB。
100PB數(shù)據(jù)有多大?按普通DVD約4GB容量算,就相當(dāng)于2500萬張DVD,每天觀看一張,大約要68000年才能看完。
會后第二天,115科技的上云小組就開始和各個廠商探討方案。其中,阿里云是最后一家。
高手過招,兩三回合后便可將對方底氣探個大概。「我們聊了聊存儲方面的技術(shù)問題,發(fā)現(xiàn)對方都非常有研究?!?a href="http://m.qzkangyuan.com/cnidc/cloud/yzx/2017/7338.html">阿里云中國區(qū)解決方案總經(jīng)理霍嘉回憶說。
115科技向霍嘉坦言已經(jīng)接觸過幾家云廠商,霍嘉也大方指出這個項目比較復(fù)雜。首先,115個人是一個在線系統(tǒng),遷移過程不能影響用戶正常使用,因此這是一個熱遷移問題。其次,115個人上數(shù)據(jù)量大,存儲及業(yè)務(wù)系統(tǒng)復(fù)雜,因此更需要詳細設(shè)計。
霍嘉說,115科技上云這一項目和優(yōu)酷上云的項目非常相像。都是以非結(jié)構(gòu)化數(shù)據(jù)為主的圖片及視頻業(yè)務(wù),存儲需求類似;也都是線上系統(tǒng),需要保持不宕機。
有了優(yōu)酷的遷移經(jīng)驗,霍嘉多了一份底氣。他把整個上云過程進行了拆分講解,找到關(guān)鍵節(jié)點及風(fēng)險點,并估算了時間。他的判斷是,這個項目需要90天完成。
對于115科技來說,遷移時間是非常敏感的考量指標(biāo)。因為在遷移過程中,公司需要負擔(dān)雙份的硬件及帶寬費用。
「動不動就幾千萬上億的,這誰扛得住啊?!?/p>
盡管深知115科技方面對時間的敏感,霍嘉還是堅持三個月遷移周期的評估, 「100PB的數(shù)據(jù)遷移,史無前例。這種事一定要對客戶負責(zé)。因為開工沒有回頭箭?!?/p>
3. 決戰(zhàn)45天
阿里云在周期評估過程中的專業(yè)與堅持,讓115科技信心大增。
賴霖楓也在項目結(jié)束后談到,最打動他的是阿里云的方案從實際出發(fā),是最接地氣的方案。
「不像是甲乙方,更像是戰(zhàn)友和伙伴?!顾u價說。