精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

運維數(shù)據(jù)：建設與落地AIOps的基石

人閱讀
2020-05-22 10:23:08
來源：ITBear科技
相關關鍵詞
- 運維數(shù)據(jù)

自全球著名IT咨詢機構Gartner在2017年正式提出AIOps以來，國內外各個企業(yè)與廠商都在積極探索與嘗試利用大數(shù)據(jù)、機器學習技術來改進和增強傳統(tǒng)IT運維能力(如在監(jiān)控、自動化和服務管理等方向)。

運維數(shù)據(jù)：建設與落地AIOps的基石

關于AIOps，業(yè)界有很多的定義和解釋，但筆者在2019年底參加Gartner全球I&O大會時，分析師Charley Rich一語道破了本質：“智能運維另外一個名字就是數(shù)據(jù)分析;(My name is AIOps, but you can call me Data Analytics……)”。所以，撥開迷霧，除了各種各樣數(shù)據(jù)應用場景、高深復雜的算法和酷炫的可視化，其最基礎的部分就是數(shù)據(jù)——運維數(shù)據(jù)是構建和落地AIOps的基石。

運維數(shù)據(jù)驅動AIOps成為必選項

業(yè)務增長速度快、架構復雜度指數(shù)級升高，帶來的是運維數(shù)據(jù)的極大變化。傳統(tǒng)運維數(shù)據(jù)一般僅涉及到底層基礎設施以及部分應用，但是在以用戶體驗和業(yè)務結果為核心的外向型運維管理模式下，運維數(shù)據(jù)的邊界已然被打開了。

現(xiàn)在的運維數(shù)據(jù)不僅包括面向多層技術棧的各類參數(shù)與文件，同時還包括了各種用戶體驗的數(shù)據(jù)以及與企業(yè)休戚相關的核心業(yè)務質量KPI等，如下圖所示。

運維數(shù)據(jù)：建設與落地AIOps的基石

面向全棧的運維數(shù)據(jù)

運維數(shù)據(jù)的另外一個特點是數(shù)據(jù)類型的多樣性(Variety)，可分為時序型指標、追蹤(關聯(lián))模型、日志數(shù)據(jù)、配置管理數(shù)據(jù)、告警事件、工單數(shù)據(jù)和運維知識/運維知識圖譜等類型。

運維數(shù)據(jù)邊界的開放，同時意味著數(shù)據(jù)量的極速暴漲，以某大型企業(yè)運維部門的數(shù)據(jù)為例，在2017年數(shù)據(jù)處理量穩(wěn)定在150億條/天， 2018年的數(shù)據(jù)是800億條/天，而到2019年中處理量已經(jīng)達到了驚人的2000億條/天，數(shù)據(jù)洪水帶來價值挖掘成本也越來越高。

運維監(jiān)控另一個突出特點是問題發(fā)現(xiàn)的敏捷性，故障發(fā)生的同時就要根據(jù)數(shù)據(jù)實現(xiàn)事件的產(chǎn)生與消息通知。因此大部分運維數(shù)據(jù)都是流式數(shù)據(jù)，數(shù)據(jù)的價值隨著時間的流逝而降低，因此必須實時計算并給出秒級響應。

運維監(jiān)控最核心任務之一就是對業(yè)務應用的故障預防、定位與處置。而在處理突發(fā)故障時，現(xiàn)有工具和解決手段存在效率低、不準確、不及時的問題，因為我們面向的IT環(huán)境架構比以往規(guī)模更大、復雜度更高、海量數(shù)據(jù)的挖掘更困難，而處理海量、實時、多樣的數(shù)據(jù)并產(chǎn)生高價值的工作恰恰是機器學習的特長。因此，利用機器學習等AI技術對運維數(shù)據(jù)進行處理的AIOps，成為運維發(fā)展的必然走向。

面向智能運維的數(shù)據(jù)體系方案

落地AIOps戰(zhàn)略，一方面要強調運維數(shù)據(jù)的基礎作用，另一面要形成運維數(shù)據(jù)治理與應用的全局體系，圍繞規(guī)劃、系統(tǒng)與實施三個階段，面向運維數(shù)據(jù)的全生命周期與業(yè)務導向結果，從數(shù)據(jù)的整體規(guī)劃、運維數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)的計算與處理、指標管理體系規(guī)劃與實施、專業(yè)運維數(shù)據(jù)庫的建立以及數(shù)據(jù)的典型應用場景等多角度著手，如下圖所示。

運維數(shù)據(jù)：建設與落地AIOps的基石

【面向AIOps的數(shù)據(jù)體系建設】

面向未來的基于數(shù)據(jù)驅動的運維管理模式將以主動、集中、業(yè)務價值為核心，構建一種顛覆傳統(tǒng)運維的全新管理方法：

●從IT系統(tǒng)的各個對象，以及現(xiàn)有監(jiān)控工具中獲取全量，海量以及多樣的運維數(shù)據(jù);

●將指標、事件、告警、日志、工單等各類運維數(shù)據(jù)在運維大數(shù)據(jù)系統(tǒng)上進行統(tǒng)一存儲與處理;

●通過機器學習和先進的運維場景分析方法，主動識別和響應數(shù)據(jù)模型潛在的問題，評價IT基礎設施和應用對于業(yè)務運營的影響。

數(shù)據(jù)作為企業(yè)的核心資產(chǎn)，提升數(shù)據(jù)分析能力、數(shù)據(jù)決策水平以及數(shù)字化運維效能，努力營造“基于數(shù)據(jù)說話、基于數(shù)據(jù)管理、基于數(shù)據(jù)決策”的工作氛圍是數(shù)字化轉型的行動方針。

對于運維團隊，面向不斷變化的業(yè)務與極速挑戰(zhàn)，更要用“夯實數(shù)據(jù)基礎，提升數(shù)據(jù)質量，穩(wěn)步推進數(shù)據(jù)應用”作出表率。借助新的運維數(shù)據(jù)管理模式，能對IT系統(tǒng)以及業(yè)務進行高效精準的管理，輔助故障根因分析，有效降低MTTD(Mean Time To Detect，平均故障檢測時間)和MTTR(Mean Time To Restore，平均故障恢復時間)，并大幅減輕運維工作壓力，顯著降低成本，不斷提升服務質量和用戶體驗。

運維數(shù)據(jù)的典型應用場景

所有運維數(shù)據(jù)的智能運維場景，都是AIOps本身的應用場景，這里用問題發(fā)現(xiàn)、智能告警、故障診斷、數(shù)據(jù)預測等幾個典型場景進行舉例說明。

（1）智能異常檢測：企業(yè)IT系統(tǒng)規(guī)模的擴大、運維環(huán)境的復雜化、監(jiān)控數(shù)據(jù)量的海量增長，使得運維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問題的難度也越來越大。而智能異常檢測通過基于歷史數(shù)據(jù)模型的異常檢測等方法，能夠自動、實時、準確地從監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)異常，為后續(xù)故障的分析與處理提供基礎。根據(jù)對象的不同異常檢測可劃分為數(shù)據(jù)源異常檢測、文本異常檢測、數(shù)據(jù)源異常檢測。

（2）智能異常預測：在實際的運維過程中，故障往往不是獨立存在的。海恩法則告訴我們，任何不安全的事故都可以預防。智能異常預測通過對重要特性數(shù)據(jù)進行預測算法學習來實現(xiàn)故障的提前診斷、從而避免損失。故障預測的典型場景包括：磁盤故障預測、網(wǎng)絡故障預測以及內存泄露預測等。

（3）故障關聯(lián)分析：在運維過程中，各類監(jiān)控工具每天會產(chǎn)生大量冗余的告警，而這些告警之間可能存在一些關聯(lián)，只有找到產(chǎn)生告警的根本原因才能快速、有效地對故障進行處理。關聯(lián)分析可以用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系。在智能運維中，我們通過對歷史數(shù)據(jù)的學習和分析，發(fā)現(xiàn)有意義的關聯(lián)數(shù)據(jù)，再通過對關聯(lián)數(shù)據(jù)的分析建立業(yè)務與硬件的拓撲關系，從而實現(xiàn)故障的提前預警以及根源分析。

（4）故障根因分析：對故障進行根源分析是在眾多可能引起故障的因素中，追溯到導致故障發(fā)生的癥結所在，并找出根本性的解決方案。利用機器學習或者深度學習的方法，我們可以找出不同因素之間的強相關關系，并利用這些關系，推斷出哪些因素是根本性的因素。故障根因分析可以幫助用戶快速診斷問題、提高故障的定位速度以及修復效率。

（5）容量規(guī)劃預測：為保證業(yè)務的正常運營，企業(yè)需要對容量進行合理的評估。過多的預留容量會造成浪費、增加企業(yè)成本;而過少的容量則可能帶來故障、造成業(yè)務損失。而隨著IT架構的廣泛云化，容量評估也不僅僅是對硬件需求的預測，更有可能是為優(yōu)化業(yè)務運行成本而進行的服務平臺選擇的關鍵。利用智能運維中的解決方案，通過分析業(yè)務量、業(yè)務性能以及資源的占用情況的歷史數(shù)據(jù)，并結合業(yè)務量預測數(shù)據(jù)來建立容量規(guī)劃模型，從而在保證業(yè)務性能最優(yōu)的同時幫助企業(yè)節(jié)省運營成本。

（6）業(yè)務與性能關聯(lián)分析：應用故障以及性能問題發(fā)生時，往往會影響用戶體驗進而對業(yè)務造成影響，在智能運維方案里，通過建立業(yè)務關鍵指標與性能之間的關系模型，從海量的歷史數(shù)據(jù)中分析性能與業(yè)務之間的非線性、多因素關系，從事后的影響評估、事前的What-if預測分析等多方面來考慮性能問題對業(yè)務的影響。比如通過分析IT性能提升與降低對業(yè)務好壞的量化影響來快速發(fā)現(xiàn)業(yè)務與IT性能之間的量化關系，分析IT性能對業(yè)務的影響程度。

（7）告警壓縮：企業(yè)各種監(jiān)控工具會產(chǎn)生海量的告警信息，這些告警信息中可能存在大量的冗余告警甚至形成告警風暴，對運維人員產(chǎn)生極大干擾。傳統(tǒng)運維平臺無法對告警風暴進行有效處理，而在智能運維中，我們針對短時、大量、甚至是持續(xù)的冗余告警，可以通過相似度、相關性判斷對這些冗余告警進行合并，從而為運維人員提供有效的告警信息，大幅降低運維工作難度、提升運維KPI。

（8）智能化故障處理：傳統(tǒng)運維管理中對故障的處理非常依賴運維人員的經(jīng)驗，但人的經(jīng)驗無法覆蓋所有故障范圍，運維人員經(jīng)驗不足可能造成運維效率低下或者產(chǎn)生錯誤決策。而在智能運維中，將API接入的實時監(jiān)測結果或預測結果引入決策知識庫(智慧大腦)智能生成決策建議，并根據(jù)實際結果及趨勢判斷采用的處理策略，可以是人工處理或者自動處理。故障智能處理可以減少問題排查的時間、大幅提高問題解決的效率，提升企業(yè)運維標準化程度。

總結和展望

運維數(shù)據(jù)作為AIOps的最基礎構成，無疑起到了基石的作用。企業(yè)在實施AIOps時，必須從最開始就注重運維數(shù)據(jù)，建設數(shù)字化運維數(shù)據(jù)體系，踐行數(shù)據(jù)文化與應用模式，面向業(yè)務與用戶體驗不斷迭代與優(yōu)化，才能把AIOps戰(zhàn)略落到實處。

（免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部