2月23日晚間,微信頭部服務提供商微盟集團旗下SaaS業務服務突發故障,相關小程序癱瘓,微盟面臨客戶流失、巨額賠償風險。
2月28日下午,微盟通告稱:微盟所有業務恢復服務數據恢復進展順利,并表示已經恢復七成左右的數據。數據恢復分為磁盤鏡像、磁盤掃描、數據傳輸、數據提取、數據導入等多個步驟,由于數據量龐大,受制于磁盤讀寫瓶頸,每一次掃描和傳輸都會耗費20-30個小時,且一旦中斷將會重新掃描,因此預計剩余部分數據恢復的時間還會持續2-4天左右。
3月1日晚上,微盟最新公告稱:截止到3月1日晚8點,在騰訊云團隊協助下,經過7*24小時的努力,我們數據已經全面找回,由于此次數據量規模非常大,為了保證數據一致性和線上體驗,我們將于3月2日凌晨2點進行系統上線演練,將于3月3日上午9點數據恢復正式上線。
此次微盟發生“宕機”的直接原因是核心運維人員惡意刪庫,該行為不僅在一天之內讓微盟市值蒸發了近10億元,也為依賴微盟運營的300萬中小商家帶來慘重損失。這次事件也讓業內掀起了對互聯網公司數據安全問題的討論,有專家表示,該事件從數據架構安全、員工行為、內外部風險、IT運維數據管控機制和制約環節等方面都暴露出巨大問題,再一次拉響了內部風險的警報。對于每一位企業CIO而言,除了汲取教訓,美國服務器租用,最緊迫的任務,是思考如何避免此類事故的發生。
數據作為公司的命脈,確實是萬萬出不得紕漏。數據丟失對一家公司來說,打擊是致命的。所以,技術人員的任何操作,都需要慎而重之,對數據安全時刻保持警鐘長鳴,數據備份應極為重視!微盟運維事故發生后,騰訊云的技術團隊已經在第一時間與微盟對齊,研究制定修復方案。一般來說,線上數據應該是有多重備份的,就算被刪了也可以迅速恢復,為什么微盟三十多個小時還沒完全恢復?要不是沒備份,或者備份環節有嚴重問題。
據悉,這次故障被破壞最嚴重的就是生產系統的數據庫,而且是核心庫。更為重要的是,此次事件暴露出的最大問題是數據庫備份沒有做好。可能壓根就沒有備份,可能有全量備份,但是無增量備份 。數據庫的備份是一個長期的過程,而恢復只在發生事故后進行,恢復可以看作是備份的逆過程,恢復的程度的好壞很大程度上依賴于備份的情況。所以,不管哪一種,只要是數據庫備份機制不完善,沒做過完整的恢復驗證,真正要恢復的時候一定會花大量的時間找回數據。
除了備份外,為什么運維人員會有這么大的權限?是否缺乏權限的管理制度和流程?顯然,運維人員在進行數據庫的登陸和操作時,沒有嚴格的操作等級和審核機制。也有專家指出,對于絕大多數中小型企業來說,由于成本有限,運維人員有限,一個運維人員或DBA(數據管理員)掌管整個系統是普遍現象,并且有可能擁有整個系統所有主機的最大權限,比如root。所以,中小企業的數據安全也面臨著員工職業道德的考驗。如果真的沒法做到最小授權,云主機租用,建議企業可以安裝主機安全管控軟件,或者堡壘機,各個云廠商都有,當出現類似rm -rf 、fdisk、drop等這樣的高危命令時可以實時攔截。
2020年3月1日晚上,微盟公告稱數據已經全面找回,并表示此次事故暴露出公司在數據安全方面出現了管理漏洞。事故發生后,微盟內部在系統自查的同時邀請外部數據安全專家一起來評估數據安全保障方案,現公布措施如下:
所以,在企業上云大潮的趨勢下,無論是公有云還是私有云都不是絕對安全的,對于特定核心數據的備份是必要的。對于有能力的企業可以自建,一定做好全量備份,增量備份,延遲備份,全量備份要多機房,異地備份,因為數據是核心資產;對于中小企業來說,面臨的挑戰更多影響也更大,在選擇一家靠譜的云服務商和云數據庫產品外,也要進行本地備份、多云部署。
在企業數字化轉型變革中,確保數據安全是企業的責任也是重任。“數據安全”關乎企業數字化發展和未來的商業模式及競爭力,如何在企業數字化轉型過程中保障“數據安全”?云廠商又能做些什么呢?