賴羿明:各位下午好,首先請允許我先自我介紹一下,我來自聯(lián)通云數(shù)據(jù)有限公司云計算與大數(shù)據(jù)研發(fā)部,我的名字叫賴羿明,現(xiàn)在就職于我們聯(lián)通云公司的高級項目經(jīng)理職位,我也很榮幸能跟隨我們聯(lián)通云數(shù)據(jù)公司跟了很多行業(yè)和政企大的項目,也使我成長頗多。同時對我們整個開源云計算這個行業(yè)以及我們沃云自身都有一個更深的了解。今天跟大家分享的題目是沃云平臺高可用實踐分享。
當下無論各位的企業(yè)還是政府,他們自身都有很強的動力,去將自己原有的IT信息系統(tǒng)往云上部署。上云整體來講是個趨勢,除了國家政策驅(qū)動之外,采用云計算與虛擬化的技術(shù),確實會為使用者和租戶帶來明顯的好處。首先會明顯提升IT基礎(chǔ)設(shè)施資源的利用率,通過虛擬化的技術(shù)我們可以大幅度提高單臺CPU、內(nèi)存還有存儲使用率,可以用更少的投資做更多的事。同時針對更多的中小企業(yè)來講,他們通過購買第三方的公有云的平臺資源,可以減少各種非核心的IT基礎(chǔ)設(shè)施的投資,他們將可以更加專心專注于自己的業(yè)務(wù)。第二點,云計算具有部署靈活和可擴展性高的特點,應(yīng)用運行在云計算的各種虛擬化的設(shè)備中,本身與物理機是解耦合的,可以方便的實現(xiàn)資源的管理和調(diào)度的調(diào)配,同時也可以實現(xiàn)資源的快速交付開通、按需擴展規(guī)模。第三點,提高我們整個IT環(huán)境管理的效率,利用虛擬化的工具和統(tǒng)一的云平臺監(jiān)管的平臺,我們可以對云資源實現(xiàn)統(tǒng)一的調(diào)配和調(diào)度,提升整體的管理效率。四是借助云平臺,借助整個虛擬化的各種技術(shù),可以有效提升服務(wù)應(yīng)用的可靠性、服務(wù)的連續(xù)性。比如說一般來講我們的云平臺,我們的計算節(jié)點都會以集群的形式對外提供服務(wù),單臺節(jié)點掛掉之后,我們可以很方便的利用我們的云技術(shù),將所有的寄宿在這臺宕掉的主機中遷移到健康的虛機中,來保證業(yè)務(wù)的高可用性和業(yè)務(wù)的連續(xù)性。
除了上云會帶來一些新的技術(shù)和實現(xiàn)的改變,更重要會帶來管理模式的改變。在傳統(tǒng)企業(yè)的信息化的建設(shè)上,如果采用這種傳統(tǒng)的方式,或者說這種煙囪式的模式,通常每一套應(yīng)用系統(tǒng)均要部署一套屬于自己的服務(wù)器、硬件平臺、數(shù)據(jù)庫以及中間件。根據(jù)我跟過的許多項目來講,他們原則有關(guān)的這些信息化系統(tǒng)如果采用煙囪化的方式建,基本上很難進行統(tǒng)一的管理,同時他們每個系統(tǒng)由于是單獨建設(shè),會有自己單獨的規(guī)劃、單獨的需求,很難做到系統(tǒng)之間的互聯(lián)互通。采用購買云服務(wù)的方式,我們就相當于為整個部門進行一個統(tǒng)一的資源的分配、資源的管理,當業(yè)務(wù)部門想要構(gòu)建自己的應(yīng)用系統(tǒng)平臺的時候,我們直接從統(tǒng)一的管理平臺將各種可需要的資源以服務(wù)的方式交付給他,實現(xiàn)這種靈活、快速的部署,就由這種傳統(tǒng)分散的效率低下的管理模式變成了集中高效統(tǒng)一的管理模式。
同時采用云化之后,對整個平臺運維也提出了更高的要求。首先我們所有的云平臺建設(shè)實際上都要以客戶的業(yè)務(wù)為驅(qū)動,客戶購買云服務(wù)肯定想專注于自己的業(yè)務(wù)應(yīng)用,更多的鉆研自己的業(yè)務(wù)為出發(fā)點。在應(yīng)用往下這層,他們不想過多投入精力。作為一個云服務(wù)商,我們構(gòu)建云平臺,勢必要把越來越多靠近業(yè)務(wù)側(cè)的一些組件、通用的功能納入我們提供服務(wù)的范圍內(nèi),要將越來越多靠近業(yè)務(wù)側(cè)的東西變成我們標準化、模塊化的服務(wù),去提供給用戶,去實現(xiàn)業(yè)務(wù)的快速交付、靈活部署,提供一個可靠的支撐的IT環(huán)境,也就是說我們的云服務(wù)商勢必要從提供傳統(tǒng)的通用的IaaS層向提供PaaS服務(wù)和SaaS服務(wù)進行轉(zhuǎn)換,越貼近于SaaS層,建的云平臺的等級越高,對于我們整個平臺的可用性和運維都提出了更高的要求。同時由于我們采用的是這種大集中式的建設(shè)方式,集中化的提高會帶來大管理、大運維,整體來看對我們的運維和平臺的高可靠性提出了更高的要求。
我現(xiàn)在再來說一下我們聯(lián)通所謂堅持選擇這種開源的路線,我們這個沃云平臺是依托于當年我們聯(lián)通研究院的一項項目,他們當時對市面上主流的開源的云計算無論是底層的虛擬化技術(shù)還是云管理平臺開源的軟件,最終確定使用OpenStack加KVM來滿足我們沃云發(fā)展的需求。用OpenStack+KVM,首先我們得到幾點好處,一是開放,OpenStack是一個龐大的穩(wěn)定的開源社區(qū),也可以通過開源的方式去解除這個廠家的鎖定。同時我們通過OpenStack,我們可以提供平臺型的解決方案,我們通過OpenStack+KVM的方式,不光搭建我們的公有云資源池,也同時為我們的客戶搭建私有云或者專享云的解決方案。同時采用了開源的方案,我們可以減少許多l(xiāng)icense的支出,是一個低投資低成本的方式。同時OpenStack自己本身所有的接口都是標準化的,二次開發(fā)的難度下降。同時各位組件具有松耦合的特性,我們在專享云中可以根據(jù)客戶的各類需求進行靈活的調(diào)配。同時還有易用性。這個圖是我們沃云平臺使用了各類的開源組件,左邊主要用的OpenStack內(nèi)部的組件,首先是比較重要的Nova、cinder、neutron、MySQL等等這些內(nèi)部的組件,除了OpenStack內(nèi)部的這些功能服務(wù)的組件,我們還融合了很多其他的開源的組件,去豐富我們沃云平臺的功能,比如我們利用haproxy實現(xiàn)高可用和負載均衡,vyatta提供VPN,Zabbix實現(xiàn)整個云平臺對物理資源和虛擬資源統(tǒng)一管理監(jiān)控的平臺,還有很多,不一一贅述。
在我們沃云理解的云環(huán)境的HA或者這個高可用,主要是分三個層次,首先是應(yīng)用層的HA。它可以包含應(yīng)用級的雙活、主備或者數(shù)據(jù)級的備份,或者說虛擬機層面的高可用。往下一層就是所謂的云控制服務(wù)和IaaS層的HA,實際上就是云的高可用。最底層是硬件以及基礎(chǔ)設(shè)施的高可用,包含基礎(chǔ)的網(wǎng)絡(luò)、基礎(chǔ)的各類硬件設(shè)施以及機房環(huán)境條件的高可用。本次我跟大家分享的主要是云環(huán)境、云平臺的高可用。
說了這么多高可用,先說一下高可用到底是什么,有些關(guān)鍵的概念。首先高可用的定義,在本地單個組件發(fā)生故障的情況下,能夠繼續(xù)訪問應(yīng)用的能力。這種服務(wù)的能力一般來講我們可以用服務(wù)的SLA或者這個服務(wù)的可用性來描述。這個服務(wù)的可用性一般來講我們可以用這個服務(wù)是有幾個9的可靠性來描述,比如四個9,某項服務(wù)的可用性達到99.99%,意味著在一年當中這項服務(wù)只有52.56分鐘是不可用的。如果更高一個層面,比如說99.999%,就證明這個服務(wù)一年中不可用的時間只有5分鐘左右9個個數(shù)越多,可靠性越高。什么叫服務(wù)的不可用,首先應(yīng)用無法訪問,服務(wù)終端,應(yīng)用訪問緩慢,無法持續(xù)對外提供這種服務(wù)。這個不可用實際上協(xié)調(diào)分兩類,首先是計劃中和非計劃中的,計劃中,由于我們定期的對硬件軟件進行升級而造成的計劃內(nèi)的對外服務(wù)不可用的形式,一種是計劃外,軟硬件突發(fā)的故障導致的不可用。從整體高可用的目標上來講,我們當然希望這個云平臺所有的服務(wù)是一直可用的,物理層面也是一直沒有宕機的。但現(xiàn)實中這個問題一定會存在,所以我們在高可用這個層面上來講,我們實際的目標實際上是要降低故障發(fā)生的頻率,也要降低單次故障發(fā)生的時間,降低故障所波及的范圍,同時盡量通過我們云平臺各類高可用的技術(shù),讓客戶對平臺發(fā)生的故障是沒有感知的。
針對高可用我們也是有兩種通用的切換維度,首先是RTO,業(yè)務(wù)恢復時間目標,RPO數(shù)據(jù)恢復時間目標,針對這種本地的服務(wù)的HA,我們主要看重的是業(yè)務(wù)恢復時間的維度。高可用框架背景下,我們的服務(wù)分為兩類,一個是有狀態(tài)服務(wù),一個是無狀態(tài)服務(wù),有狀態(tài)的服務(wù),他的下一次服務(wù)的請求是依賴于上一次服務(wù)請求關(guān)聯(lián)的關(guān)系。無狀態(tài)的服務(wù),每次服務(wù)請求與請求之間,相互之間沒有強聯(lián)系。這種服務(wù)的分類是我們采用何種高可用的方案有著很大影響,對于我們HA的實現(xiàn)方案的種類,我們分兩種,一種是所謂的Active/Passive,一般來講需要主備的方式,另外還有一種叫Active/Active,如果是兩臺就是雙活,如果是多臺就是多活。
整體介紹一下我們沃云使用OpenStack的這些組件這些架構(gòu),我們主要在OpenStack里面使用的組件是neutron、nova、glance、ironic、trove等,glance為虛機、數(shù)據(jù)庫提供鏡像服務(wù),ironic是我們新納過來的一個組件,是用來提供整個沃云平臺里物理機及服務(wù)的需求。我們現(xiàn)在擁有RDS服務(wù)有RDS for MySQL。
基于沃云OpenStack底層的架構(gòu),我們實際上是對原生的三節(jié)點的部署方式進行了一種小的調(diào)整,原生OpenStack三節(jié)點部署,我們需要部署一個控制節(jié)點,一個計算節(jié)點和一個網(wǎng)絡(luò)節(jié)點,針對于虛機整個云平臺東西向流量,由于虛機都是分布于多個計算節(jié)點之中,所以說東西向的流量就會由不同的計算節(jié)點互相之間進行流通。但是如果是想進行南北向通信,所有的流量都會集中到我們所謂的網(wǎng)絡(luò)節(jié)點中。如果當這個云平臺的規(guī)模非常大之后,所有的南北向的流量都會集中流向網(wǎng)絡(luò)節(jié)點再向上,這個網(wǎng)絡(luò)節(jié)點就會成為我們整個資源池整個平臺中一個性能的瓶頸。為了消除這個瓶頸,我們做了一個簡單的改動,在原生架構(gòu)之上,我們將獨立部署的網(wǎng)絡(luò)節(jié)點進行了消除,我們將其內(nèi)含的所有的組件分布部署在計算節(jié)點中,這樣每個計算節(jié)點有了南北向流量通信的能力,從而為我們整個沃云的架構(gòu)穩(wěn)定性和可靠性都有提升。
介紹一下我們現(xiàn)在整體的沃云平臺里高可用實現(xiàn)的這些事情。首先針對云平臺中不同的組件,我們肯定是要根據(jù)不同的實現(xiàn)的策略去實現(xiàn)我們所謂的高可用。但是我們也一定要確定一個實現(xiàn)的規(guī)則和實現(xiàn)高可用的原則。第一個,定增加冗余節(jié)點,無論在硬件上還是云平臺的軟件上,防止出現(xiàn)單節(jié)點的故障。第二個是我們要因地制宜的根據(jù)不同的服務(wù)采用比較成熟的failover故障恢復的技術(shù)。我們在高可用的方案實踐上,我們盡量要采取多活的方式加負載均衡這種方式,類似于集群的方式去實現(xiàn)。如果我們實現(xiàn)困難,再利用所謂的主備的方式實現(xiàn)服務(wù)的高可用。同時我們也盡量在平臺中使用OpenStack原生技術(shù),實現(xiàn)困難無法便捷實現(xiàn)功能的時候,我們再引入外部工具。
首先我向大家介紹的是我們沃云平臺針對我們OpenStack管理節(jié)點高可用的實踐。整體來講,我們主要做了這么幾件事情,我們用了三臺物理節(jié)點構(gòu)成集群,使用MySQL Galera這個插件,同時用RabbitMQ構(gòu)建集群,用haproxy進行負載均衡。我們對管理節(jié)點高可用,我們采取的所謂的高可用的方式是想采取多組多活的方式,我們一定要在物理節(jié)點冗余的選擇上采取奇數(shù)。同時用MySQL Galera這個插件去實現(xiàn)MySQL數(shù)據(jù)庫的集群化,多機讀寫,保證三臺管理節(jié)點和數(shù)據(jù)庫數(shù)據(jù)的一致性。相似的RabbitMQ,消息隊列也是一樣的,我們也是跨三個節(jié)點部署這個集群,然后去保證三臺節(jié)點中消息隊列和鏡像信息的一致性。虛擬IP,我們引入了Keepalived引入了對外服務(wù)的虛擬的IP,通過它我們可以做到這個虛擬的IP在三臺管理節(jié)點的網(wǎng)卡中進行自由靈活的調(diào)度分配,遇到故障之后可以進行漂移。在管理節(jié)點中,同樣也會運行很多OpenStack的api的服務(wù),在我們這個平臺里這些組件基本上都是無狀態(tài)的,我們會在每一臺管理節(jié)點中都部署相同的服務(wù),通過Haproxy進行集群的負載。
這張圖展示了一下我們整個管理節(jié)點所用到的所有的組件,無論是keepalived還是Haproxy等,整體上我們做到了管理節(jié)點上的多組多活。
到了網(wǎng)絡(luò)組件,首先介紹一下L3,我們采用的是社區(qū)里面提供的原生的VRRP方案,虛擬路由協(xié)議的方案,我們也通過引入keepalived去實現(xiàn)vrouter高可用。在兩臺計算節(jié)點上,我們分別啟一個vrouter,通過心跳監(jiān)測,當備vrouter接收不到主vrouter,就認為主的宕掉了,它就起來去服務(wù)。網(wǎng)絡(luò)組件另一個是DHCP Agent HA,實現(xiàn)起來還是比較方便的,在我們實踐中,一般在多個網(wǎng)卡的控制節(jié)點去部署多個DHCP的Agent,為了為某個租戶的網(wǎng)絡(luò)提供多個DHCP的服務(wù),去實現(xiàn)所謂的高可用。
接下來是計算節(jié)點高可用,我們首先肯定是計算節(jié)點發(fā)生之后之后,我們的處理方法,要將故障計算節(jié)點上的虛擬機都靈活的漂移到健康的宿主機中。但是我們實現(xiàn)的方式是這樣,我們將比如每三臺或每五臺計算節(jié)點,我們在這個資源池內(nèi)劃成三個或五個為一組,檢查管理網(wǎng)、存儲網(wǎng)和業(yè)務(wù)網(wǎng)的連通性。比如說compute1這個節(jié)點,通過業(yè)務(wù)網(wǎng)絡(luò)一直pin compute2和compute3,如果發(fā)現(xiàn)一直pin不通,它的虛擬訪問不到網(wǎng)絡(luò),服務(wù)出問題,也就說明compute1出了問題,這個時候要出發(fā)我們自己相應(yīng)的虛擬機遷移機制,將虛機往健康的宿主機上去遷移,實現(xiàn)所謂計算節(jié)點高可用。
說到存儲節(jié)點,我這邊主要介紹一下我們Cinder-volume服務(wù)高可用。首先我們也是引入casemaker,采用主備的方式,我們的策略是在每個沃云資源池AZ部署多個cinder-volume服務(wù),以這種主備的方式實現(xiàn)cinder-volume服務(wù)的高可用。
針對整體高可用實踐的總結(jié),首先通過我們之前這些分析和角度,這對于云平臺來講,高可用性、高運維度是云平臺本身一個亮點的東西,它也是在構(gòu)建我們云生產(chǎn)環(huán)境中必須具有的能力。我們平時在客戶進行交流的時候,我們肯定會或多或少放大云能夠提供的帶來的好處,高可用是在我們沃云構(gòu)建中考慮得非常多的一件事情。在選擇高可用這個模式方面,我們盡量是以多組多活的方式為主。我們基于OpenStack原生的功能以及對自身服務(wù)的特性進行二次開發(fā),實現(xiàn)了云管理節(jié)點高可用、網(wǎng)絡(luò)組件高可用以及存儲和計算節(jié)點高可用。
以上我提到的所有的功能已經(jīng)廣泛應(yīng)用于我們沃云平臺,已經(jīng)服務(wù)了我們絕大多數(shù)客戶。一些非常早期的客戶我們也將會通過我們云平臺迭代升級來實現(xiàn)上述的這些功能。
再簡單說一下我們通過沃云平臺現(xiàn)在已經(jīng)服務(wù)了哪些客戶和實現(xiàn)了哪些案例。我們的案例主要包括五大省級的政務(wù)云。沃云平臺,我們云公司提供了從頂層設(shè)計調(diào)研規(guī)劃開始,一直到應(yīng)用的部署遷移,以及私有云應(yīng)用部署的一套的解決方案。我們除了深耕政務(wù)云,我們也著力打造教育云,通過OpenStack開放特性,我們也實現(xiàn)了物理平臺和虛擬化平臺混合部署的架構(gòu)。同時我們還做外企的車聯(lián)云的平臺,通過我們的平臺與第三方云平臺API的調(diào)測,我們提供異構(gòu)混合云的部署,承載國際客戶車聯(lián)信息化的平臺。同時我們也為很多省份的環(huán)保云平臺做過成功案例,首先他們使用公有云、私有云混合部署,通過我們沃云平臺提供大數(shù)據(jù)的服務(wù)能力的支撐。對于企業(yè)這塊,我們也有公有云,通過我們公有云按需付費、按量使用的方式,我們?yōu)楹芏嘀行∑髽I(yè)也進行了服務(wù)的支撐。針對政務(wù)云來講,我們深耕細作,于今年3月也率先推出了沃云電子政務(wù)云的白皮書,在這個白皮書里面我們推出了電子政務(wù)云很多標準化、模塊化的產(chǎn)品以及對流量的模型,以及云網(wǎng)一體化總體架構(gòu)進行了說明,我們云公司希望通過對我們這個云平臺深耕細作以及對這個行業(yè)的深入了解,要從一個行業(yè)的參與者變成一個規(guī)則的制定者。
我今天的分享到此結(jié)束,謝謝大家!
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- MediaTek發(fā)布天璣8400 5G全大核智能體AI芯片,賦能高階智能手機
- 千方科技:擬以1.198億元受讓車聯(lián)網(wǎng)基金20%合伙份額
- 中國鐵塔:高同慶因年齡原因辭任公司非執(zhí)行董事等職務(wù)
- MediaTek發(fā)布天璣8400 5G全大核智能體AI芯片,賦能高階智能手機
- 榮耀官宣成為《哪吒之魔童鬧?!饭俜胶献骰锇椋?025魔法科技年貨節(jié)開啟
- 榮耀Magic7 RSR保時捷設(shè)計發(fā)布:大王影像升級,重塑影像創(chuàng)作與處理邊界
- VR和AR技術(shù)的未來趨勢:重塑互動與體驗
- 6G技術(shù)和頻譜需求:解鎖下一代無線連接
- 關(guān)于數(shù)據(jù)存儲的四個驚人事實
- 千家周報|上周熱門資訊 排行榜(12月16日-12月22日)
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。