share_log

“史上最大IT事故”初步调查报告:97%受影响系统已恢复,“元凶”竟只是一次常规更新?

“史上最大IT事故”初步調查報告:97%受影響系統已恢復,“元兇”竟只是一次常規更新?

財聯社 ·  07/26 21:49

①“史上最大IT事故”事故的始作俑者——Crowdstrike在其官網發佈了此次事故的初步調查報告,解釋這一事故的發生根源,僅僅是一次“常規運營更新”的失誤。②在該事故中癱瘓的850萬台Windows電腦絕大部分已經恢復正常運行。

財聯社7月26日訊 上週五(7月19日),美國網安巨頭CrowdStrike的一次軟件更新事故引發了“史上最大IT中斷事故”:全球850萬台Windows計算機崩潰。這一事件引發全球IT系統中斷,大量航班停飛,企業停擺。

北京時間本週五,在事故發生一週後,此次事故的始作俑者——Crowdstrike在其官網發佈了此次事故的初步調查報告,解釋這一事故的發生根源,僅僅是一次“常規運營更新”的失誤

CrowdStrike還通報稱,截至太平洋時間7月24日下午5點(北京時間7月24日8點),與內容更新之前相比,已有超過97%的Windows傳感器恢復在線。

CrowdStrike所說的Windows傳感器是指其面向Windows系統的網安平台Falcon的傳感器。這意味着,在上週CrowdStrike更新事故導致癱瘓的850萬台Windows電腦中,絕大部分電腦的Windows系統和Falcon網安系統已經恢復正常運行。

CrowdStrike CEO在領英上表示:“我們知道我們的工作尚未完成,我們仍致力於恢復每個受影響的系統。對於仍然受到影響的客戶,請知道我們不會休息,直到我們完全恢復…我對此次中斷造成的破壞深感抱歉,並向所有受影響的人親自道歉。”

據保險公司Parametrix稱,此次IT中斷持續了數天,給全球財富500強企業造成了約54億美元的損失。自上週五的事故以來,CrowdStrike的股價已累計下跌約25%。

爲什麼Falcon會觸發這樣嚴重的事故?

Falcon是Crowdstrike旗下最爲王牌的網絡安全平台產品。爲了更好地理解此次事故,我們需要先理解Falcon的防禦機制。

Falcon是一種“端點檢測和響應”(EDR)軟件。它的作用是利用傳感器來監控安裝它的計算機上發生的所有情況,尋找惡意活動的跡象,並即時、靈活地進行響應。

舉個例子。如果把一臺電腦系統比喻成一個小區,那麼傳統的防火牆就類似於守在小區大門的門衛,殺毒軟件就類似於小區保安,他們會檢查識別進入小區的可疑人物(尤其是已知的壞人),並將其趕出小區。但他們通常只會根據已知的攻擊特徵來識別威脅,面對高級威脅、未知威脅時可能存在安全漏洞。

而Falcon等EDR軟件就類似於小區的智能監控系統,傳感器就是安裝在小區各個角落的攝像頭,他們時刻監控小區的每一個角落,關注小區裏每一個人的一舉一動,並在發現任何可疑情況(比如看到小區中的某個人在與疑似黑客聯繫)時利用人工智能、大數據等技術進行分析、判斷和預測威脅,並且靈活自主地進行相應措施。

因此,EDR軟件對於網絡威脅的防禦能力要比傳統網安系統更強,而且在面對威脅時所能採取的應對方式也比傳統網安軟件更靈活和智能。

比如傳統網安軟件通常在檢測到病毒時,只能將受感染的文件隔離或刪除;而EDR軟件在檢測到電腦可能正在和疑似黑客通信時,它可以自主地關閉通信系統,或是在發現某個系統出現疑似異常操作時,會提前預測威脅並提高監控等級。

相比於傳統的殺毒軟件,Falcon顯然更加全面和智能,但同時,因爲它需要對計算機進行大量的詳細監控(包括監控計算機通過互聯網發送的通信、正在運行的程序、正在打開的文件等等),它對於許多內部系統都擁有訪問權——換句話來說,Falcon與微軟Windows系統的聯繫更加緊密,其系統權限也比傳統網安系統要高得多。

因此,一旦Falcon這類EDR軟件出現故障,就更容易導致Windows系統整個癱瘓——上週五的全球Windows系統電腦大範圍癱瘓事件就是實例。

CrowdStrike詳細回顧事件起因

在事故發生一週後,CrowdStrike最近發佈了此次事故的初步審查報告,解釋了該次事故的具體經過。

CrowdStrike在報告中寫道,在北京時間2024年7月19日12:09,CrowdStrike發佈了一次Windows傳感器的內容配置更新,以收集有關潛在新威脅技術的遙測數據。這次更新只是CrowdStrike的一次常規運營更新,按照官方的說法,類似的更新每天都會進行好幾次。

但萬萬沒想到的是,該次更新令北京時間12:09至13:27之間在線的Windows系統集體觸發了崩潰(藍屏死機)。CrowdStrike強調,Mac和Linux主機不受影響,在此期間未在線或未連接的Windows主機也不受影響。

之所以觸發崩潰,是由於更新內容中存在缺陷,而在Crowdstrike驗證檢查期間未檢測到該缺陷。當Falcon傳感器加載該更新內容時,該缺陷會導致內存讀取越界,從而導致Windows崩潰。

在北京時間7月19日13:27,該內容更新中的缺陷已修復。在此時間之後上線的系統或在此時間段內未連接的系統不受到上述的崩潰影響。

CrowdStrike表示,未來將會加強軟件測試流程,優化錯誤處理機制,精細化部署策略,採用第三方驗證等措施,以避免類似事件再次發生。

除了初步的事件審查報告外,CrowdStrike承諾,一旦調查完成,將公開發布完整的根本原因分析。

編輯/lambor

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論