出于對(duì)業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全性的考慮,越來(lái)越多的用戶(hù)選擇建設(shè)分布式數(shù)據(jù)中心來(lái)作為災(zāi)備節(jié)點(diǎn)。而隨著分布式數(shù)據(jù)中心越來(lái)越多,企業(yè)及其運(yùn)維人員也面臨越來(lái)越多的難題:
缺乏統(tǒng)一的運(yùn)維管理
分布式數(shù)據(jù)中心沒(méi)有專(zhuān)業(yè)運(yùn)維人員,難以運(yùn)維包含服務(wù)器、桌面等復(fù)雜的IT系統(tǒng);IT建設(shè)“各自為政”,缺乏統(tǒng)一的管理規(guī)劃,運(yùn)維管理成本高;辦公終端部署在不同地理位置,維護(hù)周期長(zhǎng),造成業(yè)務(wù)中斷,影響辦公效率。
傳統(tǒng)組網(wǎng)方式運(yùn)維復(fù)雜
分布式數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備遠(yuǎn)程運(yùn)維復(fù)雜,難以統(tǒng)一策略下發(fā),廣域網(wǎng)鏈路、應(yīng)用難以可視化監(jiān)控;廣域網(wǎng)安全流量無(wú)法可視分析,分支容易被潛伏威脅當(dāng)做跳板攻擊總部,且難以發(fā)現(xiàn)和處置。
缺乏統(tǒng)一的業(yè)務(wù)支撐架構(gòu)
分布式數(shù)據(jù)中心業(yè)務(wù)和數(shù)據(jù)之間存在孤島,導(dǎo)致其與總部數(shù)據(jù)中心無(wú)法形成業(yè)務(wù)協(xié)同和數(shù)據(jù)協(xié)同;非云化數(shù)據(jù)中心更新難,不能有效保障應(yīng)用、漏洞、補(bǔ)丁的上傳下達(dá)。
日益嚴(yán)重的安全威脅
分布式數(shù)據(jù)中心缺乏員工準(zhǔn)入規(guī)則,導(dǎo)致其成為全網(wǎng)安全的薄弱點(diǎn);如果能構(gòu)建統(tǒng)一安全入口,就可以降低數(shù)據(jù)丟失風(fēng)險(xiǎn)。
這些問(wèn)題的存在,要求分布式數(shù)據(jù)中心要建立起一套統(tǒng)一的、全棧的、運(yùn)維管理體系。
信服云托管云以穩(wěn)定的通信網(wǎng)、集約高效的管理服務(wù)信息系統(tǒng)和高科技IT設(shè)施設(shè)備為技術(shù)核心,以信息感知、趨勢(shì)預(yù)測(cè)、資源共享為應(yīng)用重點(diǎn),結(jié)合互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù),集中海量數(shù)據(jù)跨行業(yè)、跨部門(mén)高度共享,實(shí)現(xiàn)對(duì)分布式數(shù)據(jù)中心業(yè)務(wù)透徹全面、實(shí)時(shí)智能的感知或預(yù)測(cè)趨勢(shì)。通過(guò)統(tǒng)一管理、統(tǒng)一運(yùn)維,以及標(biāo)準(zhǔn)化的運(yùn)維流程和智能化的監(jiān)控與事件分析,提高運(yùn)維效率、降低運(yùn)維成本。
綜合考慮網(wǎng)絡(luò)安全等級(jí)保護(hù)要求和業(yè)務(wù)應(yīng)用的實(shí)際需求,提供事前防御、事中控制、事后審計(jì)全方位保障,提高信息安全防護(hù)能力。同時(shí)提供可靠的數(shù)據(jù)備份與業(yè)務(wù)容災(zāi)機(jī)制,保障業(yè)務(wù)連續(xù)性。
信服云托管云采用超融合架構(gòu),構(gòu)建分布式云化資源池,融合計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施資源,承載云計(jì)算管理平臺(tái)以提供對(duì)的分支節(jié)點(diǎn)監(jiān)控、管理及運(yùn)維服務(wù)。
對(duì)于核心業(yè)務(wù)承載需求,云化資源池可以實(shí)現(xiàn)平滑的線性擴(kuò)容,為業(yè)務(wù)系統(tǒng)提供充足的IaaS層資源,同時(shí)結(jié)合數(shù)據(jù)庫(kù)管理平臺(tái)、大數(shù)據(jù)服務(wù)、桌面云等提供豐富的PaaS層服務(wù)。
托管云SCC管理中心統(tǒng)一運(yùn)維、遠(yuǎn)程升級(jí)乃至應(yīng)用推送,副中心無(wú)需專(zhuān)業(yè)IT人員,采用自動(dòng)化的手段,降低總部人員對(duì)大量邊緣節(jié)點(diǎn)的運(yùn)維的難度。分支節(jié)點(diǎn)開(kāi)箱即用,新業(yè)務(wù)上線時(shí)間縮短70%,日常運(yùn)維效率提升50%以上。
托管云智能運(yùn)維平臺(tái)融合AIOps智能算法與專(zhuān)家規(guī)則,覆蓋托管云62%+故障問(wèn)題,實(shí)現(xiàn)了各類(lèi)網(wǎng)絡(luò)、硬件可靠性、存儲(chǔ)、計(jì)算卡慢問(wèn)題的檢測(cè)與分析能力。
可以提前感知各類(lèi)資源使用異常,實(shí)現(xiàn)了多項(xiàng)基于AI預(yù)測(cè)的調(diào)度優(yōu)化能力,用于避免故障與卡慢問(wèn)題的發(fā)生。
還可以提前預(yù)測(cè)虛擬網(wǎng)絡(luò)發(fā)生性能瓶頸和資源不足的風(fēng)險(xiǎn),預(yù)測(cè)租戶(hù)彈性EIP的流量大小并推薦帶寬,輔助SRE提前執(zhí)行帶寬規(guī)劃業(yè)務(wù),避免由于EIP資源和帶寬不足導(dǎo)致發(fā)生無(wú)法新開(kāi)租戶(hù)或租戶(hù)業(yè)務(wù)卡頓的故障。
一、OneAgent能力
可觀測(cè)性是運(yùn)維的基礎(chǔ),它是通過(guò)檢查其輸出來(lái)衡量系統(tǒng)內(nèi)部狀態(tài)的能?。為了實(shí)現(xiàn)系統(tǒng)的可觀測(cè)性,需要使用多個(gè)采集器,造成資源浪費(fèi)。
雖然國(guó)內(nèi)外都有大量的數(shù)據(jù)采集器,但大多數(shù)采集能力單一,比如 Telegraf 僅支持指標(biāo),F(xiàn)ilebeat只服務(wù)日志,OpenTelemetry 的 Collector 對(duì)非云原生的組件并不友好,需要大量安裝 Exporter 插件。
Octopus是深信服ACMP&創(chuàng)新研究院自研的可觀測(cè)數(shù)據(jù)采集Agent,擁有的輕量級(jí)、高性能、自動(dòng)化配置等諸多生產(chǎn)級(jí)別特性,可以署于物理機(jī)、虛擬機(jī)、Kubernetes等多種環(huán)境中來(lái)采集數(shù)據(jù),真正實(shí)現(xiàn)了一體化各種環(huán)境(傳統(tǒng)環(huán)境,云/云原生)統(tǒng)一數(shù)據(jù)采集,一個(gè)進(jìn)程或 Daemonset Pod 就可以實(shí)現(xiàn)全方位的數(shù)據(jù)采集,配置體驗(yàn)良好,可擴(kuò)展性強(qiáng)。
二、資源預(yù)測(cè)和處置推薦
隨著用戶(hù)業(yè)務(wù)的發(fā)展,托管云上的計(jì)算、存儲(chǔ)等資源都需要進(jìn)行相應(yīng)的優(yōu)化調(diào)整。資源的配置優(yōu)化需要滿(mǎn)足業(yè)務(wù)的兩個(gè)要求:足夠的資源,保證業(yè)務(wù)的穩(wěn)定性;盡可能節(jié)約成本,但目前的難題是:無(wú)法提前感知計(jì)算、存儲(chǔ)資源的未來(lái)風(fēng)險(xiǎn);無(wú)法獲得計(jì)算、存儲(chǔ)資源未來(lái)風(fēng)險(xiǎn)的處置建議;無(wú)法對(duì)閑置資源提前預(yù)估,因而造成IT成本上升。
“資源預(yù)測(cè)”功能在增加用戶(hù)對(duì)計(jì)算、存儲(chǔ)資源未來(lái)風(fēng)險(xiǎn)感知能力的同時(shí),提供了明確的資源配置建議,降低因資源不足導(dǎo)致的故障發(fā)生頻率,提前規(guī)避因業(yè)務(wù)不足導(dǎo)致的業(yè)務(wù)中斷或資源過(guò)剩造成成本上升的問(wèn)題。
↑ 資源預(yù)測(cè)功能界面展示
另外,當(dāng)資源過(guò)剩時(shí),也可基于智能算法對(duì)閑置虛擬機(jī)進(jìn)行識(shí)別,回收對(duì)應(yīng)的資源池或服務(wù)器資源。以檢測(cè)深信服的客戶(hù)業(yè)務(wù)系統(tǒng)虛擬機(jī)4K+為例,經(jīng)虛擬機(jī)閑置識(shí)別檢測(cè),發(fā)現(xiàn)并處置(含縮容和關(guān)機(jī))130+臺(tái),0負(fù)面反饋。
↑ 閑置虛擬機(jī)識(shí)別功能界面展示
三、資源競(jìng)爭(zhēng)感知與負(fù)載均衡能力
隨著虛擬機(jī)的新建、開(kāi)關(guān)機(jī)及其自身負(fù)載的變化,集群主機(jī)間總是面臨負(fù)載不均問(wèn)題,從而導(dǎo)致資源競(jìng)爭(zhēng),業(yè)務(wù)性能受到嚴(yán)重影響。
準(zhǔn)確、及時(shí)甚至提前感知資源競(jìng)爭(zhēng),采取高效的負(fù)載均衡策略,可為核心業(yè)務(wù)提供長(zhǎng)期穩(wěn)定的性能保障。
為解決上述問(wèn)題,該平臺(tái)實(shí)現(xiàn)了DRS:資源競(jìng)爭(zhēng)感知與附在均衡能力。
引入多項(xiàng)核心指標(biāo)分析資源競(jìng)爭(zhēng)與業(yè)務(wù)真實(shí)資源需求,基于負(fù)載變化預(yù)測(cè)結(jié)果搜索最佳負(fù)載均衡策略?;?a href="http://worldfootballweekly.com/AI_1.html" target="_blank" class="keylink">AI預(yù)測(cè)的DRS可快速甚至提前感知資源競(jìng)爭(zhēng),及時(shí)進(jìn)行負(fù)載調(diào)度,降低業(yè)務(wù)受到資源競(jìng)爭(zhēng)影響的時(shí)間。基于AI負(fù)載變化分析與Cost-Benefit模型的調(diào)度策略,可大幅提升單次調(diào)度帶來(lái)的收益,減少業(yè)務(wù)遭受資源競(jìng)爭(zhēng)的頻率。
↑ 資源競(jìng)爭(zhēng)告警與負(fù)載均衡調(diào)度建議展示
以上就是關(guān)于分布式數(shù)據(jù)中心全棧智能運(yùn)維平臺(tái)的介紹,本期內(nèi)容還有信服云托管云運(yùn)維可控技術(shù)負(fù)責(zé)人Will的視頻直播分享,在“深信服科技”公眾號(hào)可以觀看回放。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )