大數(shù)據(jù)技術(shù)和人工智能技術(shù)的高速發(fā)展,推動運維管理由傳統(tǒng)的人工運維向智能運維轉(zhuǎn)變。AIOps即Artificial Intelligence for IT Operations的縮寫,是把機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法應(yīng)用于IT運維工具和業(yè)務(wù)系統(tǒng)所采集的大型數(shù)據(jù)集,并嘗試模擬人類行為(如發(fā)現(xiàn)、判斷、響應(yīng))的智能化運維管理平臺。智能運維AIOps讓運維管理具備算法和機器學(xué)習(xí)能力,通過持續(xù)學(xué)習(xí)將運維人員從紛繁復(fù)雜的告警中解放出來、使運維變得智能化。據(jù)Gartner預(yù)測,2020年AIOps的采用率將會達到整個運維行業(yè)的40%。
人工智能在AIOps中的具體應(yīng)用
傳統(tǒng)的運維方式在監(jiān)控、問題發(fā)現(xiàn)、告警以及故障處理等各個環(huán)節(jié)均存在明顯不足,需要大量依賴人的經(jīng)驗、工作效率低下,并且在數(shù)據(jù)采集、異常診斷分析、告警事件以及故障處理的效率等方面都有待提高。那么,以AI技術(shù)為支撐的AIOps是否能夠解決這些問題呢?下面我們從監(jiān)控、問題發(fā)現(xiàn)、告警以及處置這四個階段分別介紹AI技術(shù)在各階段的應(yīng)用及價值。
智能化監(jiān)控
企業(yè)使用大量的監(jiān)控工具如APM、NPM、日志、DEM、基礎(chǔ)設(shè)施監(jiān)控等,來實現(xiàn)各個技術(shù)棧的監(jiān)控。然而大量無效/無用數(shù)據(jù)會增加后端數(shù)據(jù)處理的壓力,而數(shù)據(jù)的漏采可能導(dǎo)致問題、故障的漏報,此外監(jiān)控工具需要大量的人工調(diào)試配置、嚴重依賴運維人員的經(jīng)驗,人工成本巨大。在智能運維中,通過基于機器學(xué)習(xí)算法的智能數(shù)據(jù)采集器來實現(xiàn)智能的數(shù)據(jù)過濾、關(guān)鍵數(shù)據(jù)識別、采集密度與頻率調(diào)整以及采集服務(wù)器的性能均衡,從而提升數(shù)據(jù)采集的準確度、最小化人為干預(yù)程度、降低人力成本以及提高運維管理效能。
智能化問題發(fā)現(xiàn)
企業(yè)IT系統(tǒng)規(guī)模的擴大、運維環(huán)境的復(fù)雜化,使得運維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問題的難度也越來越大。AIOps可以通過智能異常檢測、故障關(guān)聯(lián)分析、故障根因分析和智能異常預(yù)測等能力,幫助運維人員快速定位問題、追溯故障根源,并實現(xiàn)故障的預(yù)測預(yù)警。
以智能異常檢測為例,通過基于密度算法的異常檢測(LOF)方法、基于Ensemble的快速異常檢測方法、基于歷史數(shù)據(jù)模型的異常檢測等方法等AI技術(shù),能夠自動、實時、準確地從監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)故障的分析與處理提供基礎(chǔ)。對故障進行根源分析是在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機器學(xué)習(xí)或者深度學(xué)習(xí)的方法可以找出不同因素的之間的強相關(guān)關(guān)系,并利用這些關(guān)系,推斷出哪些因素是根本性的因素,幫助用戶快速診斷問題、提高故障的定位速度以及修復(fù)效率。
此外,故障往往不是獨立存在的。海恩法則告訴我們,任何不安全的事故都可以預(yù)防。智能異常預(yù)測通過對重要特性數(shù)據(jù)進行預(yù)測算法學(xué)習(xí)來實現(xiàn)故障的提前診斷、從而避免損失。故障預(yù)測的場景包括:磁盤故障預(yù)測、網(wǎng)絡(luò)故障預(yù)測以及內(nèi)存泄露預(yù)測等,可以大幅度降低運維背鍋的風(fēng)險。
智能化告警
傳統(tǒng)的告警管理一般使用固定閾值并且需要運維人員手動設(shè)置,這種方式不僅工作量巨大且十分依賴運維人員的經(jīng)驗,閾值設(shè)置不當(dāng)可能導(dǎo)致告警風(fēng)暴或者告警漏報等后果。當(dāng)監(jiān)控環(huán)境發(fā)生變化時,原先的固定閾值無法滿足告警管理的要求。智能運維采用動態(tài)基線告警方式,智能分析數(shù)據(jù)的動態(tài)極限(即相對于歷史時刻,當(dāng)前狀態(tài)的數(shù)據(jù)范圍),彌補了以往人為設(shè)置固定閾值的缺陷,智能地分析數(shù)據(jù)的發(fā)展趨勢以及分析數(shù)據(jù)動態(tài)極限,從而對告警做出智能的判斷。
各種監(jiān)控工具會產(chǎn)生海量的告警信息,這些告警信息中可能存在大量的冗余告警甚至形成告警風(fēng)暴,對運維人員產(chǎn)生極大干擾,降低了運維工作的效率。智能運維針對短時、大量的、甚至是持續(xù)的冗余告警,可以通過相似度、相關(guān)性判斷對這些冗余告警進行合并,從而為運維人員提供有效的告警信息,能夠大幅降低運維工作的難度。
在運維管理中,如果一個告警長時間得不到解決,系統(tǒng)將該告警發(fā)送給上一級進行處理,這種告警策略即為告警升級。傳統(tǒng)運維中一般采用“固定時間區(qū)間”的方法設(shè)置告警升級策略,其潛在的遲滯性可能會對業(yè)務(wù)造成一定的損失。云智慧智能運維方案通過梳理性能與業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系建立模型,當(dāng)性能指標發(fā)生異常時分析對業(yè)務(wù)的影響程度,若影響程度超過條件時,自動升級告警事件,系統(tǒng)將升級事件通知發(fā)送給對應(yīng)的告警組處理,避免因告警處理不及時帶來的業(yè)務(wù)損失。
智能化故障自動處理
傳統(tǒng)運維管理中對故障的處理非常依賴運維人員的經(jīng)驗,但人的經(jīng)驗無法覆蓋所有故障范圍,運維人員經(jīng)驗不足可能會使得運維效率低下或者產(chǎn)生錯誤決策。智能運維將API接入的實時監(jiān)測結(jié)果或者預(yù)測結(jié)果引入決策知識庫(智慧大腦)智能生成決策建議,并根據(jù)根據(jù)實際結(jié)果及趨勢判斷采用的處理策略,可以是人工處理或者自動處理,有效減少問題排查的時間、大幅提升問題解決的效率,提升企業(yè)運維的標準化程度。
智能運維AIOps的價值
得益于大數(shù)據(jù)、云計算以及人工智能技術(shù)的發(fā)展,使得大量依賴人腦決策以及手工操作的傳統(tǒng)IT運維模式快速地向如今的AIOps轉(zhuǎn)變。特別是以機器學(xué)習(xí)為主的人工智能技術(shù)的迅猛發(fā)展,幫助解決了傳統(tǒng)運維中的大量痛點,特別是在異常檢測、異常預(yù)測、關(guān)聯(lián)分析、根因分析、告警抑制、故障自動處理等多個方面和環(huán)節(jié)發(fā)揮作用。
以云智慧的某大型金融客戶為例,通過使用云智慧智能業(yè)務(wù)運維平臺,無論是整體運維工作效率,還是核心 KPI 都有大幅度的提升,同時IT運營也初步實現(xiàn)了數(shù)字化和智能化。在人工智能浪潮下,有了AI加持的智能業(yè)務(wù)運維可以為企業(yè)提供從智能告警、故障預(yù)測、故障檢測與分析、故障定位到故障處理的運維能力閉環(huán),幫助企業(yè)數(shù)字化轉(zhuǎn)型,實現(xiàn)業(yè)務(wù)的健康持續(xù)增長。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 揭秘軟銀孫正義神秘芯片計劃:打造超越NVIDIA的未來科技新星
- 大模型創(chuàng)企星辰資本獲數(shù)億融資,騰訊啟明等巨頭入局,人工智能新篇章開啟
- 大模型獨角獸階躍星辰融資新動態(tài):數(shù)億美金B(yǎng)輪,揭秘星辰未來之路
- 哪吒汽車創(chuàng)始人資金遭凍結(jié),1986萬元股權(quán)風(fēng)波引關(guān)注
- 本田與日產(chǎn)醞釀合并:明年6月敲定協(xié)議,新公司社長待本田推薦
- 金融大模型新突破:百川智能Baichuan4-Finance引領(lǐng)行業(yè),準確率領(lǐng)先GPT-4近20%,變革金融業(yè)未來
- 博通CEO陳福陽回應(yīng):忙于AI半導(dǎo)體業(yè)務(wù),暫無意收購英特爾,拒絕巨頭誘惑?
- 法拉第未來再獲融資,下月亮相首款原型車,或?qū)㈤_啟新篇章
- 央視揭露:未成年租號游戲亂象,防沉迷形同虛設(shè),需警惕
- 三星內(nèi)存部門發(fā)放超級績效獎金,最高漲薪200%,員工福利再升級
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。