2024 年 7 月 18 日(美國太平洋時(shí)間)獨立網(wǎng)絡(luò )安全公司 CrowdStrike 的一次軟件更新導致全球多個(gè) IT 系統出現故障。雖然這并非微軟自身的技術(shù)問(wèn)題,但考慮到這次事件已經(jīng)影響了公司的生態(tài)系統,我們希望在此介紹一下過(guò)去一段時(shí)間內,微軟與 CrowdStrike 以及其他公司一同采取了哪些措施進(jìn)行及時(shí)修復以及為客戶(hù)提供的支持服務(wù)。
自事件開(kāi)始以來(lái),我們一直與客戶(hù)、CrowdStrike 和外部開(kāi)發(fā)者保持著(zhù)持續的溝通,以收集信息并盡快找到解決方案。我們深知此次事件給眾多企業(yè)和個(gè)人的日常生活造成了負面的影響。我們希望能夠通過(guò)為用戶(hù)提供技術(shù)指導和支持的方式,盡快將中斷的系統安全地恢復正常狀態(tài)。具體采取的措施包括:
迅速與 CrowdStrike 合作,并通過(guò)自動(dòng)化的方式開(kāi)發(fā)解決方案。CrowdStrike 推薦了一個(gè)替代方案來(lái)解決此問(wèn)題,同時(shí)發(fā)布公開(kāi)聲明。Windows 消息中心同步發(fā)布了在 Windows 終端上解決此問(wèn)題的操作方式指南。
數百名微軟工程師及技術(shù)專(zhuān)家直接與客戶(hù)合作,以恢復服務(wù)。
與包括谷歌云平臺(GCP)和亞馬遜網(wǎng)絡(luò )服務(wù)(AWS)在內的其他云計算供應商和相關(guān)方合作,分享各自在行業(yè)中看到的影響和情況,在及時(shí)告知 CrowdStrike 的同時(shí),與客戶(hù)們保持積極的溝通。
通過(guò) Azure 狀態(tài)儀表盤(pán)(Azure Status Dashboard)讓用戶(hù)及時(shí)了解事件的最新進(jìn)展。
微軟正在夜以繼日地工作,提供持續更新和支持。此外,CrowdStrike 還幫助我們開(kāi)發(fā)了一個(gè)可擴展的解決方案,幫助微軟智能云 Azure 基礎架構加速修復 CrowdStrike 的錯誤更新。我們還與 AWS 和 GCP 合作,共同研究更高效的解決方案。
軟件更新偶爾會(huì )引發(fā)服務(wù)干擾,但像此次 CrowdStrike 更新引發(fā)的重大事件并不常見(jiàn)。根據目前的估算,CrowdStrike 更新事故影響了 850 萬(wàn)臺 Windows 設備,該數字不到所有 Windows 設備總量的 1%。盡管比例很小,但對經(jīng)濟和社會(huì )運轉帶來(lái)了巨大影響。這反映出有許多關(guān)鍵服務(wù)的企業(yè)正在使用 CrowdStrike。
此次事件印證了在微軟廣泛的生態(tài)系統下,從全球云服務(wù)提供商、軟件平臺,到安全服務(wù)提供商供及其他軟件供應商,再到我們的客戶(hù),彼此之間相互關(guān)聯(lián)。這也提醒著(zhù)身處科技生態(tài)下的我們,利用現有機制、優(yōu)先考慮安全部署和災備是至關(guān)重要的。正如過(guò)去兩天中我們所看到的,唯有緊密協(xié)作,齊心協(xié)力,才能更高效地吸取經(jīng)驗、恢復服務(wù)并繼續前進(jìn)。感謝所有相關(guān)方的合作與協(xié)同,我們將繼續更新此次事件的相關(guān)經(jīng)驗和未來(lái)計劃。