隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,系統(tǒng)架構(gòu)因此也不斷的演進(jìn)、升級(jí)、迭代。從單一應(yīng)用,到垂直拆分,到分布式服務(wù),到SOA,以及現(xiàn)在火熱的微服務(wù)架構(gòu),系統(tǒng)擴(kuò)展性和開(kāi)發(fā)效率大幅提高。但同時(shí),由于系統(tǒng)自身復(fù)雜度的激增,傳統(tǒng)的測(cè)試方法已經(jīng)不能全面理解和覆蓋系統(tǒng)所有可能的行為,測(cè)試的有效性也大打折扣,加之開(kāi)發(fā)者在引入復(fù)雜性的同時(shí)對(duì)風(fēng)險(xiǎn)的低估和忽視,成為目前系統(tǒng)可用性面臨的兩大挑戰(zhàn)。
2008年8月,某廠商由于單點(diǎn)系統(tǒng)架構(gòu)故障,導(dǎo)致了三天宕機(jī),在此期間無(wú)法觀看任何視頻。隨后該廠商開(kāi)始將服務(wù)從數(shù)據(jù)中心遷移到云上,之后就開(kāi)始嘗試在生產(chǎn)環(huán)境中開(kāi)展一些系統(tǒng)彈性的測(cè)試。
隨著Chaos Monkey的出現(xiàn),混沌工程原理應(yīng)運(yùn)而生,它被描述為“在分布式系統(tǒng)上進(jìn)行實(shí)驗(yàn)的學(xué)科,目的是建立對(duì)系統(tǒng)承受生產(chǎn)環(huán)境中湍流條件能力的信心”。如今,谷歌,亞馬遜,IBM,耐克等公司,都采用某種形式的混沌工程來(lái)提高現(xiàn)代架構(gòu)的可靠性。
京東云在混沌工程領(lǐng)域的實(shí)踐——破壞性演練
破壞性演練,是京東云在混沌工程中的實(shí)踐。一方面,2018年京東云新增200+產(chǎn)品,實(shí)現(xiàn)爆發(fā)式增長(zhǎng);另一方面由于微服務(wù)化,大大增加了系統(tǒng)間依賴(lài)關(guān)系的復(fù)雜性;保障整個(gè)云的持續(xù)可用是巨大的挑戰(zhàn)。
基于混沌工程的理論依據(jù),京東云在實(shí)踐過(guò)程中用系列實(shí)驗(yàn),真實(shí)驗(yàn)證系統(tǒng)在各類(lèi)故障場(chǎng)景下的表現(xiàn),通過(guò)頻繁地進(jìn)行大量實(shí)驗(yàn),使系統(tǒng)本身的反脆弱性持續(xù)增強(qiáng),讓云有信心抵御生產(chǎn)環(huán)境中難以預(yù)知的問(wèn)題,也讓客戶(hù)對(duì)云的穩(wěn)定性放心。
開(kāi)始混沌工程之前,京東云在底層架構(gòu)上,已經(jīng)實(shí)現(xiàn)支持多Region和多AZ高可用,包括物理層、IaaS層、PaaS層以及控制面。但是京東云并未持樂(lè)觀態(tài)度,而是謹(jǐn)慎的認(rèn)為:業(yè)務(wù)垂直化的質(zhì)量保證,更多關(guān)注縱向細(xì)分產(chǎn)品的質(zhì)量和高可用能力,但對(duì)云整體橫向的高可用的驗(yàn)證方面,存在天然的弱點(diǎn)。另一方面,實(shí)踐出真知,不驗(yàn)證就沒(méi)有底氣。這些情況堅(jiān)定了京東云做混沌工程的決心。
仿真環(huán)境建設(shè)。云是一套非常復(fù)雜的整體,它的資源數(shù)量、地域分布、流量體量等,都決定了無(wú)法在生產(chǎn)環(huán)境直接演練。為了確保演練不會(huì)影響到生產(chǎn),京東云建立了隔離故障區(qū)域,將云的預(yù)發(fā)環(huán)境和測(cè)試環(huán)境都遷移至此,并投入大量服務(wù)器做1:1仿真部署,包括物理層、IaaS層、PaaS層以及控制面,及安全、CDN、視頻等核心產(chǎn)品,相當(dāng)于搭建了一個(gè)縮小公有云環(huán)境。在環(huán)境建設(shè)完成后的第二天,京東云就進(jìn)行了第一次破壞性演練。
首次演練,投入近百人,兩天時(shí)間,即收獲117個(gè)改進(jìn)點(diǎn)。之后,混沌工程成為京東云每個(gè)季度的例行工作。并由此不斷推動(dòng)應(yīng)急預(yù)案的升級(jí)和技術(shù)架構(gòu)的改進(jìn)。
應(yīng)急預(yù)案升級(jí)。當(dāng)前產(chǎn)品的主要故障場(chǎng)景,都已具備自動(dòng)化預(yù)案能力。自動(dòng)故障檢測(cè)以及自動(dòng)故障恢復(fù)能力逐漸成熟,故障恢復(fù)耗時(shí)大大縮短。
技術(shù)架構(gòu)改進(jìn)。協(xié)同京東云架構(gòu)師委員會(huì),從驗(yàn)證雙AZ的可靠性,到完善和發(fā)展基于3AZ的高可用架構(gòu)。如存儲(chǔ)產(chǎn)品,由原來(lái)的單AZ 3副本,改進(jìn)為3AZ 3副本,可用性進(jìn)一步提高;同時(shí),排查依賴(lài)成環(huán)的問(wèn)題,進(jìn)行解除依賴(lài)或完善降級(jí)能力。
演練平臺(tái)的建設(shè)。經(jīng)過(guò)不斷打磨,實(shí)現(xiàn)了演練觸發(fā)自動(dòng)化、多租戶(hù)場(chǎng)景模擬、結(jié)果快速驗(yàn)證等能力的建設(shè),提升了演練的效率。之后,演練不斷深入,場(chǎng)景不斷豐富。覆蓋了服務(wù)、機(jī)器、隨機(jī)硬件等場(chǎng)景,并結(jié)合IDC、基礎(chǔ)網(wǎng)絡(luò),對(duì)整個(gè)云基礎(chǔ)設(shè)施進(jìn)行高可用性驗(yàn)證。
混沌工程實(shí)戰(zhàn)檢驗(yàn) 京東云為客戶(hù)保駕護(hù)航
截止目前,京東商城、物流等全部核心系統(tǒng)都已經(jīng)運(yùn)行于公有云之上。依據(jù)內(nèi)部混沌工程的經(jīng)驗(yàn),結(jié)合云高可用技術(shù)方案,京東云總結(jié)出了一套面向云上用戶(hù)的快速驗(yàn)證方案,與用戶(hù)一起,通過(guò)最佳實(shí)踐解決用戶(hù)可靠性的問(wèn)題。
以某客戶(hù)為例,在服務(wù)建設(shè)完畢后正式上線(xiàn)前,京東云都會(huì)根據(jù)客戶(hù)的用法和要求,做抗脆弱性驗(yàn)證來(lái)保障客戶(hù)服務(wù)問(wèn)題,讓客戶(hù)放心;而針對(duì)客戶(hù)用到的京東云專(zhuān)有云產(chǎn)品JD Cloud Stack,京東云會(huì)對(duì)每一個(gè)發(fā)布版本做完整的混沌工程驗(yàn)證,保證交付給客戶(hù)的是可靠的產(chǎn)品。
在剛剛過(guò)去的京東11.11期間,京東云全業(yè)務(wù),全場(chǎng)景云端監(jiān)控,流量同比增長(zhǎng)300%,云搜索查詢(xún)每日峰值達(dá)13.3萬(wàn)次/秒,云緩存每秒操作數(shù)每日峰值120萬(wàn)次,負(fù)載均衡接入請(qǐng)求量同比去年上漲36%,CDN整體峰值流量同比去年上漲44%。在大促之下,京東云仍然保障了AI、物流、廣告等核心業(yè)務(wù)穩(wěn)定。這充分證明了京東云以混沌工程理論為指導(dǎo)的可靠性設(shè)計(jì)和實(shí)踐經(jīng)受住了嚴(yán)酷的考驗(yàn),值得信賴(lài)。
關(guān)于京東云
京東云(JD Cloud)是京東集團(tuán)旗下的全平臺(tái)云計(jì)算綜合服務(wù)提供商,擁有全球領(lǐng)先的云計(jì)算技術(shù)和豐富的云計(jì)算解決方案經(jīng)驗(yàn)。京東云提供從IaaS、PaaS到SaaS的全棧式(Full Stack)服務(wù),包含公有云、私有云、混合云、專(zhuān)有云在內(nèi)的全場(chǎng)景(Full Services)服務(wù),從IDC業(yè)務(wù)、云計(jì)算業(yè)務(wù)到綜合業(yè)務(wù)的全頻段(Full Spectrum)服務(wù),京東云還致力于為合作伙伴提供覆蓋全行業(yè)應(yīng)用、為全行業(yè)提供平臺(tái)支撐的全生態(tài)(Full Ecosystem)服務(wù)。同時(shí),京東云依托京東集團(tuán)在云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)應(yīng)用等多方面的長(zhǎng)期業(yè)務(wù)實(shí)踐和技術(shù)積淀,形成了從基礎(chǔ)平臺(tái)搭建、業(yè)務(wù)咨詢(xún)規(guī)劃,到業(yè)務(wù)平臺(tái)建設(shè)及運(yùn)營(yíng)等全產(chǎn)業(yè)鏈的云生態(tài)格局,為用戶(hù)供一站式全方位的云計(jì)算解決方案。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 本田與日產(chǎn)醞釀合并:明年6月敲定協(xié)議,新公司社長(zhǎng)待本田推薦
- 金融大模型新突破:百川智能Baichuan4-Finance引領(lǐng)行業(yè),準(zhǔn)確率領(lǐng)先GPT-4近20%,變革金融業(yè)未來(lái)
- 博通CEO陳福陽(yáng)回應(yīng):忙于AI半導(dǎo)體業(yè)務(wù),暫無(wú)意收購(gòu)英特爾,拒絕巨頭誘惑?
- 法拉第未來(lái)再獲融資,下月亮相首款原型車(chē),或?qū)㈤_(kāi)啟新篇章
- 央視揭露:未成年租號(hào)游戲亂象,防沉迷形同虛設(shè),需警惕
- 三星內(nèi)存部門(mén)發(fā)放超級(jí)績(jī)效獎(jiǎng)金,最高漲薪200%,員工福利再升級(jí)
- LG新能源南京總部啟動(dòng),智能電池生產(chǎn)引領(lǐng)綠色未來(lái)
- 東芝涅槃:退市裁員后重回盈利,改革之路如何重塑輝煌?
- 大眾汽車(chē)管理層降薪風(fēng)暴:獎(jiǎng)金縮水,未來(lái)兩年減薪10%,求真還需看業(yè)績(jī)表現(xiàn)
- 知乎預(yù)測(cè)未來(lái):黑神話(huà)悟空領(lǐng)銜,諾貝爾物理學(xué)獎(jiǎng)成焦點(diǎn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。