從絕望到希望:微盟的驚魂168小時
“我們幸免于這次‘天災’,卻不料一場‘人禍’讓我們處于無比艱難的境地?!?月27日,微盟創(chuàng)始人孫濤勇說出這句話時,微盟正面臨公司歷史上最大的危機。
2月25日,微盟在港交所發(fā)布一則自愿性公告,對外公布2月23日19點以后公司SaaS業(yè)務生產環(huán)境和數(shù)據(jù)遭到破壞的消息;2月28日,微盟恢復了所有的SaaS業(yè)務生產環(huán)境,但沒有找回全部的備份數(shù)據(jù),而是僅恢復了微站產品的備份數(shù)據(jù);3月1日20點,數(shù)據(jù)才全部找回。
如果這部分數(shù)據(jù)無法找回,那對微盟的影響將難以想象。2013年創(chuàng)立的微盟,于2019年1月登陸港交所,根據(jù)其2019年中期財報,SaaS業(yè)務的收入占微盟總收入33.4%,毛利潤占比48.5%。
事實上,微盟此次遇到的并非員工誤操作導致的數(shù)據(jù)丟失,而是一次人為惡意破壞。此前,有位多業(yè)內人士向記者表示,這種情況下想完全恢復如此大規(guī)模的數(shù)據(jù),幾乎是不可能的事情,但微盟很幸運。從數(shù)據(jù)丟失到數(shù)據(jù)找回,微盟經(jīng)歷了驚魂168小時。
數(shù)據(jù)消失
2月23日下午6點多,微盟服務器發(fā)出故障報告,排查后發(fā)現(xiàn),所有服務器都處于服務無法響應的狀態(tài)。緊接著,技術人員重啟了其中一臺服務器,結果發(fā)現(xiàn)系統(tǒng)內所有的數(shù)據(jù)都不見了。
“這個時候情況已經(jīng)非常緊張,因為服務器是大面積出現(xiàn)故障,這可能有兩個原因,一是被入侵,二是被故意破壞。”騰訊云運維中心和客戶服務部門負責人徐勇州表示。
騰訊云隨即安排兩條業(yè)務線同時進行進一步排查,一條線是服務器團隊,他們繼續(xù)對服務器進行檢查,最終確定,微盟服務器上所有文件已全部丟失;另一條線是安全團隊,他們通過與微盟的技術人員合作,定位到是一個經(jīng)授權的賬號進入數(shù)據(jù)庫進行了刪除操作。
做技術工作的人有時相互開玩笑會提到“rm -rf /* ”,這是Linux系統(tǒng)下的文件刪除命令,它將刪除包括系統(tǒng)和數(shù)據(jù)在內的所有文件,且不可恢復。
而微盟,正是遭遇了這一黑天鵝事件。據(jù)介紹,微盟除了數(shù)據(jù)庫被刪除外,備份的服務器也無法登錄,這意味著備份數(shù)據(jù)也被一并刪除。原因是公司一位核心運維員工刪除了相關業(yè)務數(shù)據(jù)。
數(shù)據(jù)恢復其實是一個非常專業(yè)的領域,正常來說,都是由企業(yè)主導,云廠商作為協(xié)助。但微盟當時已經(jīng)沒有更多辦法,只能依靠騰訊云,而騰訊方面面對這個情況,其實信心也不大。
“數(shù)百T的數(shù)據(jù),連備份都被刪除了,還想在較短的時間內恢復,這在過往的歷史上還沒發(fā)生過。我們咨詢了幾家數(shù)據(jù)恢復公司,他們均表示這種情況能恢復20%左右的數(shù)據(jù)就非常不錯了?!毙煊轮萏寡浴?/p>
緊急救援
通常來說,數(shù)據(jù)恢復工作可以分為三個階段:第一步,是控制受損面,這是要保證那些有機會找回數(shù)據(jù)的服務器不要再發(fā)生任何問題;第二步,就是通過專業(yè)軟件找回數(shù)據(jù);第三步,則是公司進行數(shù)據(jù)驗證、上線聯(lián)調等操作。
其中,最關鍵的是前兩步,如果前兩步能順利完成,那數(shù)據(jù)也就順利找回了。這次微盟的數(shù)據(jù)找回工作,也基本是按照這個流程。
徐勇州表示,按照第一步,他們首先要為源數(shù)據(jù)做鏡像拷貝,以保護好源數(shù)據(jù)。但通過對微盟情況的分析,他們覺得無論是傳統(tǒng)的網(wǎng)絡對拷還是硬件對拷,在時效性和安全性上都無法滿足。
于是,騰訊云團隊做了一個大膽的決定:越過鏡像拷貝的步驟,將另外一塊系統(tǒng)盤安裝到原有服務器上,通過新系統(tǒng)盤加載OS和數(shù)據(jù)恢復軟件,直接對服務器進行掃描。
“在進行操作時,很多同事無法到達現(xiàn)場,我們一群人就通過視頻連線,對前方的每一步操作進行確認”,徐勇州回憶說,整個過程非常緊張,因為這是不可逆的過程,做錯任何一步,都無法挽回。
好在最后有驚無險,源數(shù)據(jù)的讀取工作順利完成,接下來的挑戰(zhàn)是數(shù)據(jù)提取。2月26日,騰訊云團隊拿到第一批次數(shù)據(jù),導入驗證后也正常,這讓他們非常興奮,感覺勝利近在咫尺。但他們很快發(fā)現(xiàn),這些都是截至2月17日的數(shù)據(jù),即便這份數(shù)據(jù)完整,也仍有一周的數(shù)據(jù)丟失。
整個團隊的心情隨即再次落入谷底。但事實上,通過前面的一系列操作,已經(jīng)證明數(shù)據(jù)仍然存在,只不過當時希望找回的是全部數(shù)據(jù)。
于是,騰訊云團隊又重新制定了“打撈”方案。這次,他們決定按照數(shù)據(jù)公司的恢復方案,對磁盤的每一“塊(block)”都進行掃描,與此同時,騰訊云團隊還制定了一個B計劃,即從服務器的OS層進入打撈數(shù)據(jù)。
“B計劃是備用方案,它需要海量的嘗試和數(shù)據(jù)驗證,非常耗時。一旦需要采用B計劃,那微盟的數(shù)據(jù)肯定無法按預期完成,具體的時間也難以確定?!毙煊轮菡f。
幸運的是,第一臺服務器的第一“塊(block)”便掃描成功,拿到的數(shù)據(jù)經(jīng)驗證也是完整的,這說明A計劃可行。只不過,通過這個方式得到的數(shù)據(jù)大小,都遠遠小于微盟核心數(shù)據(jù)的大小,這就像被打亂了的巨大拼圖,想要獲得完整數(shù)據(jù),需要進行拼接。
“數(shù)據(jù)越大,拼接的難度也越大。但好在微盟的備份機制比較完整,數(shù)據(jù)類型也相對統(tǒng)一,最后通過一系列技術手段,終于完成了拼接工作,微盟的數(shù)據(jù)也成功找回。”徐勇州說。
3月2日,微盟發(fā)布公告稱,截至2020年3月1日晚8點,在騰訊云的協(xié)助下,公司備份的數(shù)據(jù)已經(jīng)找回,并將于3月2日凌晨2點至上午8點進行數(shù)據(jù)恢復上線演練,于3月2日晚10點至3月3日上午9點,進行數(shù)據(jù)恢復上線。
3月3日上午,微盟宣布,截至2020年3月3日上午6點,公司的SaaS業(yè)務數(shù)據(jù)已恢復上線。
敲響警鐘
數(shù)據(jù)丟失,微盟損失慘重。在2月25日正式披露數(shù)據(jù)丟失后,微盟的股價連續(xù)三日大幅下跌,從6.18港元一度跌至4.8港元,跌幅超20%。而針對商家,微盟則準備了1.5億元的賠付資金,并提供了現(xiàn)金賠付和流量賠付兩種賠付方式。
一位信息安全專家告訴記者,人為因素,現(xiàn)在已經(jīng)是引發(fā)企業(yè)數(shù)據(jù)安全問題的最主要導火索,有些就是員工的一個誤操作,導致服務器崩潰或者刪除了核心數(shù)據(jù)庫,另外還有就是像微盟遇到的惡意破壞,這種危害性更大。
針對這一問題,徐勇州向記者表示,企業(yè)的數(shù)據(jù)安全不能僅依靠哪一項單獨策略,而是要有一整套完整的體系,且每一個環(huán)節(jié)都不能有疏忽。相比傳統(tǒng)的數(shù)據(jù)管理,在云上,數(shù)據(jù)的安全將會得到更多保障。
比如通過云賬號管理權限的管控,可以讓企業(yè)對賬戶下資源的訪問權限做到粒度可控,比如允許某些子賬號只擁有某個COS存儲桶的讀權限,而另外一個賬號擁有該COS存儲對象的寫權限等,這樣可以大大降低誤操作或非必要操作引起的數(shù)據(jù)損壞、丟失的風險。

2、本網(wǎng)其他來源作品,均轉載自其他媒體,目的在于傳遞更多信息,不表明證實其描述或贊同其觀點。文章內容僅供參考。
3、若因版權等問題需要與本網(wǎng)聯(lián)絡,請在30日內聯(lián)系我們,電話:0755-32905944,或者聯(lián)系電子郵件: 434489116@qq.com ,我們會在第一時間刪除。
4、在本網(wǎng)發(fā)表評論者責任自負。
- 為打開國際市場 擴大山西知名度省長帶隊攜知名品牌亮相進博會
- 山西省紡織產業(yè)創(chuàng)新聯(lián)盟毛麻絲產業(yè)科技服務隊在大同中銀紡織服務
- 虎門服交會早知道:第25屆中國(虎門)國際服裝交易會暨虎門時裝周備戰(zhàn)會召開
- 富民快訊:2020虎門富民時裝節(jié)11月20日—21日與您盛情相約
- 大朗快訊:第十九屆中國(大朗)國際毛織產品交易會圓滿落幕
- 木棉道時尚秀場:虎門時裝周“陌上木蘭·扶搖”時裝發(fā)布會預告
- 時尚品牌的數(shù)字化創(chuàng)新——2020北京時尚高峰論壇北京聯(lián)合大學分論壇暨第三屆品牌與新媒體高峰論壇成功舉辦
- 行業(yè)盛事:做小而美、高精尖的專業(yè)展 帶你領略2020虎門面輔料展現(xiàn)場氣氛
網(wǎng)友評論僅供其表達個人看法,并不表明本網(wǎng)同意其觀點或證實其描述,發(fā)言請遵守相關規(guī)定。