日前,GOPS全球運(yùn)維大會在深圳正式召開。GOPS 全球運(yùn)維大會由高效運(yùn)維社區(qū)(GreatOPS)、開放運(yùn)維聯(lián)盟(OOPSA)和 DevOps 時代社區(qū)聯(lián)合主辦,面向互聯(lián)網(wǎng)、金融、通信及傳統(tǒng)行業(yè)廣大運(yùn)維技術(shù)人員,旨在傳播先進(jìn)技術(shù)思想和理念,分享業(yè)內(nèi)最佳實(shí)踐。
會上,華為云SRE首席架構(gòu)師李浩發(fā)表題為“基于量化分析設(shè)計(jì)高可用架構(gòu),構(gòu)建確定性運(yùn)維能力”的主題演講,深入分享確定性運(yùn)維能力如何為行業(yè)業(yè)務(wù)構(gòu)建穩(wěn)定可靠的云底座。同期,華為云還舉辦了“維享會”精英沙龍,攜手趣丸、丹姿、金蝶、小鵝網(wǎng)絡(luò)等企業(yè)的運(yùn)維總監(jiān)、技術(shù)負(fù)責(zé)人,共同針對不同行業(yè)、不同規(guī)模、不同數(shù)字化轉(zhuǎn)型階段的企業(yè)運(yùn)維經(jīng)驗(yàn)進(jìn)行交流分享。
維享會·精英沙龍(GOPS專場)
龐大、復(fù)雜、快速變化,成為系統(tǒng)運(yùn)維的關(guān)鍵挑戰(zhàn)
在千行百業(yè)的數(shù)字化轉(zhuǎn)型中,軟硬件迭代加速,企業(yè)的業(yè)務(wù)系統(tǒng)越來越龐大、復(fù)雜且處于快速變化中,保障系統(tǒng)的穩(wěn)定可靠,是企業(yè)業(yè)務(wù)最基本的“生命線”。
為此,華為云SRE提出“確定性運(yùn)維”能力體系,這是面向云時代的高效能、高質(zhì)量的運(yùn)維體系,也是融合“高可用架構(gòu)”、“動態(tài)風(fēng)險治理”、“高度智能運(yùn)維框架”形成的有機(jī)結(jié)合體。通過“確定性運(yùn)維”,華為云將業(yè)務(wù)高速發(fā)展帶來的“不確定性”變成SLO的“確定性”。 其中,通過高可用設(shè)計(jì)消除風(fēng)險因素,是達(dá)成確定性的前提。
華為云主張的確定性運(yùn)維能力體系
“運(yùn)維也許被認(rèn)為是默默干活的‘駱駝’,但是未來不能總是‘駱駝’,因此要正本清源,在前端架構(gòu)上把交付產(chǎn)品設(shè)計(jì)好。一個高可用的架構(gòu)才有現(xiàn)網(wǎng)好的質(zhì)量結(jié)果,現(xiàn)網(wǎng)的高質(zhì)量結(jié)果,不是僅靠簡單運(yùn)維出來的,而是前端設(shè)計(jì)和后端運(yùn)維一起努力得到的效果?!崩詈圃谘葜v時表示。
“用數(shù)學(xué)工具解決工程問題”,建立云系統(tǒng)和云應(yīng)用的高可用模型
設(shè)計(jì)確定性高可用架構(gòu),首先要解決的就是如何度量的問題。在架構(gòu)設(shè)計(jì)中,華為云使用了系統(tǒng)可用度評估模型,該模型是由三個決定性因素構(gòu)成:失效率,即中斷次數(shù);恢復(fù)時長,包括發(fā)現(xiàn)時間、定界時間、恢復(fù)時長;故障影響,即每次中斷影響的租戶數(shù)量。通過這三個因素,可計(jì)算出系統(tǒng)最終的可用度,基于這一評估模型,運(yùn)維團(tuán)隊(duì)可更有針對性地進(jìn)行高可用設(shè)計(jì),追求系統(tǒng)整體可用度的最優(yōu)。
華為云SRE首席架構(gòu)師李浩
“SLO的優(yōu)秀結(jié)果絕對不是靠運(yùn)氣實(shí)現(xiàn),系統(tǒng)的可用性一定需要靠前端設(shè)計(jì)出來”。李浩表示,系統(tǒng)的可用度如何,并不是現(xiàn)網(wǎng)通過事件度量出來的,而是通過前端設(shè)計(jì),在架構(gòu)設(shè)計(jì)階段就保障SLO是可信的。在這個過程中,還可能遇到各種挑戰(zhàn),如質(zhì)量要素的非線性導(dǎo)致的結(jié)果不確定性、質(zhì)量要素的數(shù)量爆炸、質(zhì)量要素之間存在相關(guān)性等問題。
為了解決這些問題,華為云以RBD(Reliability Block Diagram)模型和馬爾科夫模型作為理論基礎(chǔ),對華為云現(xiàn)網(wǎng)長時間運(yùn)轉(zhuǎn)產(chǎn)生數(shù)據(jù)進(jìn)行分析,圍繞硬件故障、軟件故障、變更問題、過載/安全這四大中斷因素,將這些故障的中斷次數(shù)、中斷時長等數(shù)據(jù)作為模型的基礎(chǔ)參數(shù)。基于這些方法,可進(jìn)一步準(zhǔn)確統(tǒng)計(jì)服務(wù)器的可用度,軟件bug概率等,從而構(gòu)建出華為云架構(gòu)可用度評估模型和技術(shù)規(guī)范。
華為云通過這樣一套工程體系,建立每個云服務(wù)的SLO檔案,并通過數(shù)據(jù)分析和量化計(jì)算的方式找到系統(tǒng)的短板,支撐高可用方案選型。據(jù)介紹,當(dāng)前華為云已基于該模型解決了大量實(shí)際問題,包括集群節(jié)點(diǎn)數(shù)量設(shè)定、多組件復(fù)雜分布式系統(tǒng)的組件連接方式等。
面向未來,量化分析模型完整系統(tǒng)還有很多路要走。李浩表示,華為云將持續(xù)創(chuàng)新,把各種子模型合并,實(shí)現(xiàn)更加完備的、更準(zhǔn)確的計(jì)算系統(tǒng)可用度。
一切皆服務(wù),幫助企業(yè)構(gòu)建確定性運(yùn)維能力
為了幫助更多企業(yè)構(gòu)建穩(wěn)定可靠的云上業(yè)務(wù),華為云將自身確定性運(yùn)維實(shí)踐經(jīng)驗(yàn)沉淀,以服務(wù)的形式提供給千行百業(yè),讓運(yùn)維變革成為企業(yè)數(shù)字化轉(zhuǎn)型的加速器。
首先,華為云根據(jù)與眾多企業(yè)交流經(jīng)驗(yàn)梳理出“確定性運(yùn)維能力成熟度模型”,支撐企業(yè)評估自身運(yùn)維的成熟度并識別短板,從而制定符合其需求的運(yùn)維變革目標(biāo)和轉(zhuǎn)型、進(jìn)階措施,加快提升企業(yè)整體運(yùn)維能力。
確定性運(yùn)維成熟度模型
其次,華為云SRE提供了規(guī)劃與設(shè)計(jì)服務(wù),可協(xié)助企業(yè)應(yīng)用開發(fā)及運(yùn)維團(tuán)隊(duì)規(guī)劃運(yùn)維體系藍(lán)圖及演進(jìn)路標(biāo),使得企業(yè)運(yùn)維在能力上向確定性升級、在組織上向SRE模式轉(zhuǎn)型、在流程上持續(xù)優(yōu)化、在工具上加快智能化,從而持續(xù)優(yōu)化SLO指標(biāo)、人均維護(hù)基線、故障恢復(fù)時長,達(dá)到高度確定性結(jié)果。
最后,華為云SRE還提供確定性運(yùn)維專家培訓(xùn)課程,采用理論+案例實(shí)戰(zhàn)的方式,為企業(yè)運(yùn)維人員深度解讀國內(nèi)外SRE實(shí)踐的發(fā)展方向,分享如何構(gòu)建與提升軟件及系統(tǒng)工程能力,從而幫助企業(yè)進(jìn)行組織與團(tuán)隊(duì)能力建設(shè)。
從2022年開始,華為云加快攜手客戶、業(yè)界伙伴共創(chuàng)確定性運(yùn)維能力,在全國開展“維享會”(確定性運(yùn)維經(jīng)驗(yàn)交流分享會)活動。目前,維享會已經(jīng)開展了30余期,覆蓋不同的城市、行業(yè)、客戶,打造了行業(yè)分享運(yùn)維最佳實(shí)踐和創(chuàng)新技術(shù)的優(yōu)秀平臺。
高效一站式運(yùn)維,支撐高可用架構(gòu)量化分析及能力構(gòu)建
本次大會,華為云還首次對外展示了云運(yùn)維中心(Cloud Operations Center)。作為一體化運(yùn)維平臺,該平臺可助力企業(yè)用戶更好實(shí)現(xiàn)確定性運(yùn)維,打造高度集中化的運(yùn)維和管控能力;同時,平臺支持混合云及多云管理,并沉淀SRE最佳實(shí)踐,實(shí)現(xiàn)場景智能化運(yùn)維全局最優(yōu)決策推薦等,實(shí)現(xiàn)“一站式”的操作能力。
站點(diǎn)健康監(jiān)測大屏演示效果
面對行業(yè)數(shù)字化轉(zhuǎn)型和確定下運(yùn)維需求,華為云云運(yùn)維中心將主要助力企業(yè)構(gòu)建6大運(yùn)維能力:
故障快速恢復(fù):沉淀多年SRE故障領(lǐng)域知識庫,實(shí)現(xiàn)故障恢復(fù)最優(yōu)決策和自愈;
變更風(fēng)險管控:變更風(fēng)險智能識別和攔截,確保變更過程安全可信;
資源運(yùn)維管理:高效的資源自動化運(yùn)維,智能分批灰度,極大提升效率;
韌性評估優(yōu)化:應(yīng)用高可用架構(gòu)自動評估,及時發(fā)現(xiàn)問題驅(qū)動改進(jìn);
全??捎^測性:應(yīng)用資源全場景視角的數(shù)據(jù)層現(xiàn),按需自定義看板;
統(tǒng)一運(yùn)維門戶:運(yùn)維風(fēng)險、事件、任務(wù)等集中可視和操作,一站式完成處理;
在產(chǎn)品架構(gòu)設(shè)計(jì)上,華為云以集成促統(tǒng)一,以統(tǒng)一促簡化,以數(shù)字化使能運(yùn)維主動管理和優(yōu)化改進(jìn),通過持續(xù)治理與敏捷并重,在安全合規(guī)的基礎(chǔ)上不斷提升效率,實(shí)現(xiàn)運(yùn)維競爭力突破。
面向數(shù)字化未來,企業(yè)的IT運(yùn)維將迎來更多新變革和新挑戰(zhàn)。華為云SRE基于自身數(shù)字化轉(zhuǎn)型實(shí)踐經(jīng)驗(yàn),攜手客戶、伙伴持續(xù)開展運(yùn)維變革與創(chuàng)新,助力運(yùn)維成為企業(yè)業(yè)務(wù)發(fā)展加速器,加速千行百業(yè)數(shù)字化轉(zhuǎn)型,共同構(gòu)建“確定”的數(shù)字世界。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )