發(fā)布時間 : 2015-05-29 08:59:57 來源 : 金站網(wǎng) 瀏覽次數(shù) :
5月29日訊 今日凌晨1:30分,攜程官方稱,經(jīng)攜程技術(shù)排查,確認(rèn)此次事件是由于員工錯誤操作導(dǎo)致。從5月28日上午11:09,發(fā)現(xiàn)攜程官網(wǎng)及APP出現(xiàn)故障,到28日23:29全面恢復(fù),整個過程耗費12個多小時。
另外攜程還稱,由于攜程涉及的業(yè)務(wù)、應(yīng)用及服務(wù)繁多,驗證應(yīng)用與服務(wù)之間的功能是否正常運行,花了較長時間。攜程官方網(wǎng)站及APP已于28日23:29全面恢復(fù)正常。對用戶造成的不便,攜程再次深表歉意。
對于本次事件的排查結(jié)果,簡要原因說明:
1、事件發(fā)生原因
經(jīng)攜程技術(shù)排查,確認(rèn)此次事件是由于員工錯誤操作,刪除了生產(chǎn)服務(wù)器上的執(zhí)行代碼導(dǎo)致。
2、為什么恢復(fù)時間那么長
一般來說,類似攜程這樣的大型網(wǎng)站承載著繁多業(yè)務(wù),其后臺是一個由SOA(面向服務(wù))架構(gòu)組成的龐大服務(wù)器集群,看似簡單的一個頁面背后由上千個應(yīng)用子系統(tǒng)以及上千個Web Service組成,而每個應(yīng)用子系統(tǒng)和每個Web Service之間都存在著相互調(diào)用的依賴關(guān)系。
發(fā)生事件后,攜程的技術(shù)人員除了需要恢復(fù)生產(chǎn)服務(wù)器上的執(zhí)行代碼以外,還需要做的是恢復(fù)并確保每個應(yīng)用子系統(tǒng)以及每個Web Service的功能正常,同時確保應(yīng)用子系統(tǒng)與Web Service間的調(diào)用關(guān)系得以正常執(zhí)行。
這種驗證性的操作需要攜程的工程師及運維人員通力合作,盡快恢復(fù)生產(chǎn)代碼并通過反復(fù)地、持續(xù)性地調(diào)試以確保應(yīng)用子系統(tǒng)與Web Service功能的正常運行。
攜程再次保證,數(shù)據(jù)和數(shù)據(jù)庫并未受到此次事件的影響,用戶訂單數(shù)據(jù)也完整無損,請用戶放心并繼續(xù)使用攜程網(wǎng)站及App。
3、如何杜絕此類事件的再次發(fā)生?
攜程在系統(tǒng)上做了改進,規(guī)范并杜絕技術(shù)人員錯誤刪除生產(chǎn)服務(wù)器上代碼的操作。