隨著互聯(lián)網(wǎng)、5G、IoT等技術(shù)的飛速發(fā)展,全球大型數(shù)據(jù)中心數(shù)量將以3.6%的復(fù)合年增長率增長,數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,數(shù)據(jù)中心服務(wù)器規(guī)模已經(jīng)達(dá)到10萬級,這不僅需要更多的運(yùn)維工程師,給企業(yè)增加運(yùn)維成本,同時給運(yùn)維工程師也帶來了極大的難度和挑戰(zhàn):如何及時發(fā)現(xiàn)異常設(shè)備?異常根因是什么?故障是否能自愈?是否能預(yù)測故障?性能趨勢是什么?如何決策?
運(yùn)維發(fā)展歷程:人肉運(yùn)維、自動化運(yùn)維和智能運(yùn)維
早期的運(yùn)維工作,大部分是由運(yùn)維工程師手工完成,這被稱作人肉運(yùn)維。服務(wù)器運(yùn)行狀態(tài),全靠運(yùn)維工程師每日肉眼查看,進(jìn)行問題定位與解決。自動化運(yùn)維應(yīng)運(yùn)而生,大大提升了發(fā)現(xiàn)異常設(shè)備的效率,降低了運(yùn)維成本。但是,面對故障根因、故障預(yù)測、性能趨勢和控制決策,自動化運(yùn)維力不從心。
Gartner在2016時提出了智能運(yùn)維(Artificial Intelligence for IT Operations)的概念,并預(yù)測到2020年,智能運(yùn)維的采用率將高達(dá)50%。從服務(wù)器運(yùn)維的角度來分析服務(wù)器智能運(yùn)維,目標(biāo)就是通過對帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息)進(jìn)行采集,通過機(jī)器學(xué)習(xí)的方式來解決運(yùn)維問題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運(yùn)維成本,提高運(yùn)維效率。
異??焖贆z測,問題準(zhǔn)確告警
在服務(wù)器運(yùn)維中,異常檢測是根本,常見的有三大監(jiān)控數(shù)據(jù):狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù),狀態(tài)指標(biāo)一般誤報率較少,而傳統(tǒng)性能指標(biāo)的設(shè)置閾值,常常某一時刻產(chǎn)生噪點數(shù)據(jù)而產(chǎn)生誤報;對于周期性變化的數(shù)據(jù)又無法進(jìn)行動態(tài)調(diào)整,也常常產(chǎn)生誤報,大大降低了告警的準(zhǔn)確性。日志一般是半結(jié)構(gòu)化數(shù)據(jù),根據(jù)日志級別產(chǎn)生告警,其準(zhǔn)確性極差,并且只能檢測到已知和確定模式的異常。
浪潮服務(wù)器智能運(yùn)維采用無閾值告警,無需人為設(shè)置閾值,通過對時序數(shù)據(jù)進(jìn)行去噪、升維、方差等處理后,經(jīng)過神經(jīng)網(wǎng)絡(luò)、LSTM、隨機(jī)森林等算法進(jìn)行動態(tài)的學(xué)習(xí),達(dá)到對監(jiān)控的性能指標(biāo),自動、實時、準(zhǔn)確的識別出異常數(shù)據(jù)。對于日志的處理,通過對單條日志的語義識別和日志文件的時序識別方式,經(jīng)過自然語言、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法進(jìn)行訓(xùn)練或者維護(hù),從而不斷完善,達(dá)到日志異常的準(zhǔn)確檢測。
故障智能處理,輕松運(yùn)維so easy
智能故障診斷是建立在異常檢測之上,有了準(zhǔn)確的異常檢測,通過綜合各個異常指標(biāo)進(jìn)行數(shù)據(jù)的融合、過濾、權(quán)重等處理,使用神經(jīng)網(wǎng)絡(luò)、SVM、隨機(jī)森林等智能算法,尋找問題根因,給出問題解決方案,使得運(yùn)維工程師能夠分鐘級解決問題。
智能故障預(yù)測是對設(shè)備某一部件的性能數(shù)據(jù)和狀態(tài)的動態(tài)檢測,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,尋找特征數(shù)據(jù)建立數(shù)學(xué)模型,使用神經(jīng)網(wǎng)絡(luò)、SVM等智能算法進(jìn)行在線/離線訓(xùn)練,形成預(yù)測模型。在部件發(fā)生故障前,感知故障,從而避免業(yè)務(wù)宕機(jī),提高系統(tǒng)穩(wěn)定性。
智能故障自愈是指故障確認(rèn)后或者預(yù)測到故障時,無需人為干預(yù),能夠通過重啟、配置或者一定的流程,使得系統(tǒng)能夠恢復(fù)正常。故障自愈,需要維護(hù)一定的規(guī)則或者對故障進(jìn)行標(biāo)記,經(jīng)過神經(jīng)網(wǎng)絡(luò)、SVM等算法進(jìn)行訓(xùn)練,形成自愈模型,實現(xiàn)系統(tǒng)的故障自愈。
智能決策,感知未來發(fā)展
浪潮服務(wù)器智能運(yùn)維工具可對服務(wù)器的性能數(shù)據(jù)進(jìn)行預(yù)測,經(jīng)過ARIMA、最小二乘法、指數(shù)平滑、LSTM等智能算法,能夠感知系統(tǒng)在未來幾個小時、幾天或者一年的數(shù)據(jù)的走勢、增長量或者周期性變化等,不僅為人工預(yù)測或者智能決策提供基礎(chǔ)數(shù)據(jù),還能夠為業(yè)務(wù)系統(tǒng)提供優(yōu)化建議。
浪潮服務(wù)器智能決策是建立在異常檢測、故障診斷、故障預(yù)測、性能預(yù)測等之上,通過建立數(shù)據(jù)模型,經(jīng)過神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、專家系統(tǒng)等智能算法的不斷學(xué)習(xí),形成決策模型,無需人為干預(yù),對服務(wù)器的配置參數(shù)進(jìn)行智能調(diào)整,版本基線的升級/回退等決策,從而達(dá)到系統(tǒng)性能最優(yōu)、異常最少、功耗最低等效果。
例如監(jiān)控服務(wù)器運(yùn)行的性能,在業(yè)務(wù)少的時候,可以將服務(wù)器功耗降低,在集群方式下,甚至可以進(jìn)行服務(wù)器關(guān)機(jī)操作,在業(yè)務(wù)量大的時候,將服務(wù)器性能調(diào)整至最優(yōu)等智能決策。在整機(jī)柜/機(jī)房中,功耗的管理,當(dāng)服務(wù)器都處于滿載時,服務(wù)器的功耗是否超越了整個機(jī)房或者機(jī)柜的最大功耗,超越之后如何進(jìn)行智能決策等。
智能推薦,發(fā)掘無限價值
智能推薦是對平臺大量數(shù)據(jù)的統(tǒng)計、計算、分析和挖掘等處理,建立數(shù)據(jù)模型,通過神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、最小二乘法、SVM等智能算法,建立推薦模型,實現(xiàn)對整個數(shù)據(jù)中心進(jìn)行分析和預(yù)測,來指導(dǎo)客戶決策服務(wù)器下架、備件量、擴(kuò)容量、縮容量、采購廠商等。例如某一型號服務(wù)器的故障率過高,維護(hù)費(fèi)用相應(yīng)增高,建議下架,又由于業(yè)務(wù)的增長,需要采購新的服務(wù)器,通過智能算法評估采購量,進(jìn)行推薦。
目前,浪潮依托自身技術(shù)優(yōu)勢,已自主研發(fā)了一系列自動化、智能化服務(wù)器管理軟件集,從服務(wù)器上架、配置、部署、監(jiān)控、故障分析等實現(xiàn)了全生命周期運(yùn)維管理。其中ISPIM(浪潮物理基礎(chǔ)設(shè)施管理平臺)突破了大規(guī)?;A(chǔ)設(shè)施智能管理平臺的分布式網(wǎng)格架構(gòu)、高性能數(shù)據(jù)采集框架及智能分析系統(tǒng)、無狀態(tài)管理技術(shù),實現(xiàn)大規(guī)模服務(wù)器的全生命周期的智能管理。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )