微軟Azure云的用戶發(fā)現(xiàn)在周二的大規(guī)模故障中丟失了數(shù)據(jù)庫記錄。報告稱,DNS故障和自動腳本兩者正是事故的罪魁禍首。
微軟在Azure中刪除了幾個透明數(shù)據(jù)加密(TDE,TransparentDataEncryption)的AzureSQL數(shù)據(jù)庫,其中包含客戶的實時信息。TDE數(shù)據(jù)庫會動態(tài)加密它們存儲的信息,并在客戶訪問時對其進行解密。
雖然加密這些表有不同的方法,但許多Azure用戶將自己的加密密鑰存儲在微軟的KeyVault加密密鑰管理系統(tǒng)中,這個過程稱為自帶密鑰(BYOK,BringYourOwnKey)。
據(jù)微軟在一封發(fā)給客戶的信函中解釋說,這些刪除操作是自動執(zhí)行的,由一個腳本觸發(fā),原因在于該腳本在密鑰保險庫中無法再訪問相應的密鑰時會刪除TDE數(shù)據(jù)庫表。
意外刪庫后,微軟不得不利用5分鐘前的快照備份恢復了客戶數(shù)據(jù),但這意味著5分鐘內(nèi)客戶的交易事務、產(chǎn)品訂單以及對數(shù)據(jù)存儲系統(tǒng)的其他更新統(tǒng)統(tǒng)丟失,需要手動進行處理。在這種情況下,客戶提出必須要微軟提供支持的工單,并要求將數(shù)據(jù)庫副本重命名為原始數(shù)據(jù)庫。
微軟則一直在竭力解釋:“如果TDE加密的SQL數(shù)據(jù)庫因無法繞過防火墻而訪問不了密鑰保險柜,數(shù)據(jù)庫將在24小時內(nèi)被刪除。”
作為補償,微軟表示會免費提供數(shù)月的數(shù)據(jù)庫服務:
那為什么會出現(xiàn)「刪庫」事故呢?答案源于本周微軟及其Azure客戶面臨的更大問題。周二,全球的云服務遭到破壞,引發(fā)了一系列問題。其中包括間歇性訪問Office365失敗,Azure云資源的調(diào)度使用也下降了。
根據(jù)微軟當時的Azure狀態(tài)頁面,這個問題反過來又歸結為DNS中斷故障:
報告顯示,此次DNS故障來自CenturyLink,后者為微軟提供DNS服務。該公司在一份聲明中說,當天遭遇了軟件缺陷。這表明當基于云的系統(tǒng)互連并且足夠自動化以允許級聯(lián)故障時可能會出現(xiàn)問題。由于缺乏人工干預,DNS供應商的軟件缺陷間接導致了客戶實時信息的刪除。
CenturyLink最近似乎遇到了串行DNS問題。該公司在2017年底完成了以340億美元收購大型網(wǎng)絡運營商Level3的計劃,該公司還在12月遭遇了DNS中斷事故,據(jù)報道,該中斷影響了緊急服務,引發(fā)了聯(lián)邦通信委員會的調(diào)查。
(
邯鄲網(wǎng)站建設)