關(guān)于數(shù)據(jù)中心中斷需要知道的10件事
Uptime Institute表示,數(shù)據(jù)中心中斷的修復成本更高,但其嚴重程度正在降低,發(fā)生的頻率也在降低。
數(shù)據(jù)中心中斷的嚴重程度似乎正在下降,而中斷成本繼續(xù)攀升。電源故障是“導致站點嚴重中斷的最大原因”。網(wǎng)絡故障和IT系統(tǒng)故障也會導致數(shù)據(jù)中心癱瘓,而人為錯誤往往也是原因之一。
這些是Uptime Institute(正常運行時間研究所)最近的數(shù)據(jù)中心中斷報告中指出的一些問題,該報告分析了中斷的類型、頻率以及其在金錢和后果方面的損失。
數(shù)據(jù)不可靠是一個持續(xù)存在的問題
Uptime警告道,考慮到一些中斷受害者缺乏透明度和報告機制的質(zhì)量,應以懷疑的態(tài)度對待與中斷有關(guān)的數(shù)據(jù)。
“中斷信息是不透明且不可靠的,”Uptime研究執(zhí)行總監(jiān)Andy Lawrence在介紹Uptime的2023年度中斷分析時表示。
”雖然航空企業(yè)等一些行業(yè)有強制報告要求,但其他行業(yè)的報告有限。所以我們必須依靠自己的手段和方法來獲取數(shù)據(jù)。眾所周知,出于各種原因,并不是每個人都愿意分享有關(guān)中斷的詳細信息。有時會得到非常詳細的根本原因分析,而有時什么也得不到?!?/p>
Uptime報告從三個主要來源挑選數(shù)據(jù):Uptime的異常事件報告(AIRs)數(shù)據(jù)庫、自己的調(diào)查和公開報告,包括新聞報道、社交媒體、中斷跟蹤器和企業(yè)聲明。每種方法的準確性各不相同。例如,公開報告可能缺乏細節(jié),來源可能不可靠。Uptime將自己的調(diào)查評為產(chǎn)生公平/良好數(shù)據(jù),因為受訪者是匿名的,且其工作角色各不相同。空氣質(zhì)量被認為非常好,因為其包含數(shù)據(jù)中心所有者和運營商在同行之間共享的詳細的設施級數(shù)據(jù)。
中斷率略有下降
根據(jù)Uptime的說法,有證據(jù)表明近年來中斷率一直在逐漸下降。
這并不意味著中斷總數(shù)正在減少——事實上,隨著數(shù)據(jù)中心行業(yè)的擴張,全球范圍內(nèi)的中斷數(shù)量每年都在增加?!斑@可能給人一種錯誤印象,即與IT負載相關(guān)的中斷率正在增長,而事實恰恰相反。中斷頻率的增長速度不及IT或全球數(shù)據(jù)中心的擴張速度?!盪ptime報道到。
總體而言,Uptime觀察到每個站點的中斷率穩(wěn)步下降,這是通過其在2020年至2022年對數(shù)據(jù)中心管理人員和運營商進行的四項調(diào)查跟蹤得出的。到2022年,60%的調(diào)查受訪者表示其在過去三年,從2021年的69%和2020年的78%下降。
中斷率的情況似乎正在緩緩改善。
中斷嚴重程度似乎正在降低
雖然60%的數(shù)據(jù)中心站點在過去三年中經(jīng)歷過中斷,但只有一小部分被評為嚴重或嚴重。
Uptime以1到5的等級衡量中斷的嚴重程度,其中5是最嚴重的。1級中斷可以忽略不計,不會導致服務中斷。5級關(guān)鍵任務中斷涉及服務和運營的重大破壞性中斷,通常包括巨額財務損失、安全問題、違反合規(guī)規(guī)定、客戶損失以及名譽損害。
歷史上,5級和4級(嚴重)中斷占所有中斷的20%左右。到2022年,嚴重/嚴重類別的中斷率下降到14%。
Uptime首席技術(shù)官Chris Brown表示,一個關(guān)鍵原因是數(shù)據(jù)中心運營商能夠更好地處理突發(fā)事件。只要在設計系統(tǒng)和管理操作方面做得更好,單個故障或故障不一定會導致嚴重或嚴重的中斷。
Brown表示,如今的系統(tǒng)具有冗余性,運營商在創(chuàng)建能夠響應異常事件和避免中斷的系統(tǒng)方面更加自律。
經(jīng)濟損失正在上升
當服務中斷確實發(fā)生時,其成本會越來越高——隨著對數(shù)字服務的依賴性增加,這種趨勢可能會持續(xù)下去。
回顧Uptime過去四年的調(diào)查數(shù)據(jù),直接和間接成本超過10萬美元的重大中斷所占的比例正在增加。2019年,60%的中斷恢復成本低于10萬美元。到2022年,只有39%的中斷造成的損失低于10萬美元。
同樣在2022年,25%的受訪者表示,最近一次中斷造成的損失超過100萬美元;45%的受訪者表示,最近一次中斷造成的損失在10萬到100萬美元之間。
Brown表示,通貨膨脹是部分原因;更換設備和勞動力的成本更高。
更重要的是企業(yè)在多大程度上依賴數(shù)字服務來開展業(yè)務。關(guān)鍵IT服務的損失可能直接導致業(yè)務中斷和收入損失。Brown表示:“任何這些中斷,尤其是嚴重和嚴重的中斷,都有能力影響多個組織和更大范圍的人群,而且必須緩解這種情況的成本不斷增加?!?/p>
第三方提供商是最引人注目的公共中斷的幕后推手
隨著越來越多的工作負載外包給外部服務提供商,第三方數(shù)字基礎(chǔ)設施企業(yè)的可靠性對企業(yè)客戶越來越重要,而這些提供商往往遭受最多的公共中斷。
Uptime報告稱,自2016年以來,跟蹤的所有公共中斷事件中,IT和數(shù)據(jù)中心的第三方商業(yè)運營商(云提供商、數(shù)字服務提供商、電信提供商)占了66%。逐年看,這一比例一直在上升。2021年,由云、托管、電信和托管企業(yè)造成的中斷比例為70%,到2022年,這一比例高達81%。
Brown表示:“企業(yè)越多地將其IT服務推向其他人的領(lǐng)域,就越不得不進行盡職調(diào)查——即使在交易達成后,也要繼續(xù)做盡職調(diào)查。”
人為錯誤是導致中斷的常見原因,也是一個相對容易解決的因素
根據(jù)Uptime基于25年數(shù)據(jù)的估計,雖然人為錯誤很少是中斷的單一或根本原因,但在所有中斷中,人為錯誤占了66%至80%。Uptime承認分析人為錯誤具有挑戰(zhàn)性。例如培訓不當、操作人員疲勞和缺乏資源等缺點可能難以查明。
Uptime發(fā)現(xiàn),與人為錯誤相關(guān)的中斷主要是由于工作人員未能遵守程序(47%的受訪者表示)或程序本身存在問題(40%)造成的。其他常見原因包括服務中的問題(27%)、安裝問題(20%)、人員不足(14%)、預防性維護頻率問題(12%)以及數(shù)據(jù)中心設計或遺漏(12%)。
從積極的方面來看,投資于良好的培訓和管理流程,可以在不花費太多成本的情況下減少中斷。
電力問題繼續(xù)阻礙數(shù)據(jù)中心的可靠性
Uptime表示,其目前的調(diào)查結(jié)果與前幾年一致,并表明現(xiàn)場電力問題仍然是造成現(xiàn)場嚴重中斷的最大原因。盡管大多數(shù)中斷都有多種原因,而且關(guān)于其報告質(zhì)量各不相同。
2022年,44%的受訪者表示,電力是其最近發(fā)生有影響的事件或中斷的主要原因。電力也是2021年(43%)和2020年(37%)嚴重中斷的主要原因
Uptime表示,網(wǎng)絡問題、IT系統(tǒng)錯誤和冷卻故障也是令人不安的原因。
網(wǎng)絡的復雜性導致更多的中斷
Uptime使用其2023年的Uptime彈性調(diào)查數(shù)據(jù)來挖掘網(wǎng)絡中斷趨勢。在調(diào)查受訪者中,44%的表示其組織在過去三年中經(jīng)歷過由網(wǎng)絡或連接問題引起的重大中斷。另有45%的表示沒有,12%的表示不知道。
導致網(wǎng)絡和連接相關(guān)中斷的兩個最常見原因是,配置或變更管理失?。?5%的受訪者提到),和第三方網(wǎng)絡提供商的失敗(39%)。
Uptime將這一趨勢歸因于當今的網(wǎng)絡復雜性?!霸诂F(xiàn)代、動態(tài)切換和軟件定義的環(huán)境中,管理和優(yōu)化網(wǎng)絡的程序會不斷修改或重新配置。錯誤變得不可避免,在如此復雜和高吞吐量的環(huán)境中,頻繁的小錯誤可以在網(wǎng)絡中傳播,導致難以停止、診斷和修復的級聯(lián)故障,”Uptime報道。
與網(wǎng)絡相關(guān)的主要中斷的其他常見原因包括:
硬件故障:37%線路破損率:27%固件/軟件錯誤:23%網(wǎng)絡攻擊:14%網(wǎng)絡/擁塞故障:12%與天氣有關(guān)的事件:7%防火墻/路由表問題:6%IT系統(tǒng)和軟件中斷的常見原因
Uptime在其彈性調(diào)查中詢問受訪者,其組織在過去三年中是否經(jīng)歷過由IT系統(tǒng)或軟件故障引起的重大中斷時,36%的表示有,50%的表示沒有,15%的表示不知道。與IT系統(tǒng)和軟件相關(guān)的最常見中斷原因是:
配置/變更管理問題:64%固件/軟件故障:40%硬件故障:36%容量/擁塞問題:22%數(shù)據(jù)同步/損壞:14%網(wǎng)絡攻擊/安全問題:10%火災并不常見,但可能是毀滅性的
公開報告的中斷,包括媒體報道的中斷,揭示了廣泛的原因。原因可能與數(shù)據(jù)中心運營商和IT團隊報告的不同,因為媒體來源對中斷的了解和理解取決于其觀點。
火災是公開報告的中斷原因之一,但在IT相關(guān)來源中排名不高。具體來說,Uptime發(fā)現(xiàn)公開報告的數(shù)據(jù)中心中斷中,有7%是由火災引起的。在網(wǎng)絡簡報中,Uptime研究人員將數(shù)據(jù)中心火災的發(fā)生率與鋰離子電池的使用增加聯(lián)系起來。
與鉛酸電池相比,鋰離子電池占地面積更小、維護更簡單、且使用壽命更長。然而,鋰離子電池存在更大的火災風險。2023年3月28日,法國Maxnod數(shù)據(jù)中心發(fā)生了一場毀滅性的火災。認為這是由鋰離子電池起火引起的。2022年10月15日,SK集團旗下、由其C&C子公司運營的韓國托管設施發(fā)生重大火災,原因也是鋰離子電池火災。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- VR和AR技術(shù)的未來趨勢:重塑互動與體驗
- 6G技術(shù)和頻譜需求:解鎖下一代無線連接
- 關(guān)于數(shù)據(jù)存儲的四個驚人事實
- 千家周報|上周熱門資訊 排行榜(12月16日-12月22日)
- 建設智慧城市:將物流無人機融入城市基礎(chǔ)設施
- 人工智能如何推動向私有云的轉(zhuǎn)變
- 【盤點】2024年,Open RAN“升咖”失敗
- 泡沫破滅:韓國SKT關(guān)閉元宇宙服務平臺
- 涉嫌違規(guī)失信行為 咪咕視訊遭軍采網(wǎng)暫停全軍采購資格
- 中信科移動孫韶輝:6G通感算智融合,驅(qū)動以用戶為中心的網(wǎng)絡變革
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。