數(shù)智時代,數(shù)據(jù)是金融機構經(jīng)營的核心資產(chǎn)和最重要戰(zhàn)略資源,也是不可或缺的生產(chǎn)要素。只有更好的管理、分析業(yè)務/IT系統(tǒng)產(chǎn)生的各種數(shù)據(jù),才能從中洞察更大的業(yè)務價值,持續(xù)優(yōu)化用戶體驗,而運維數(shù)據(jù)治理就是挖掘數(shù)據(jù)價值的基礎和重要手段。
亟需運維數(shù)據(jù)治理
復雜的業(yè)務系統(tǒng),海量的IT/業(yè)務數(shù)據(jù),以及新架構、新技術的廣泛應用,運維管理面臨更大挑戰(zhàn)。
第一,缺少統(tǒng)一的告警中心:各種監(jiān)控系統(tǒng)相互獨立沒有關聯(lián),告警事件內容不同、運維人員也不同,無法快速判斷故障根源,因多個監(jiān)控系統(tǒng)的告警事件擾亂對故障問題的正確快速定位。
第二,缺少統(tǒng)一的監(jiān)控中心:監(jiān)控對象的邏輯拓撲或物理拓撲沒有關聯(lián)起來,當問題發(fā)生時,需要在不同層面的監(jiān)控工具中排查,問題的快速發(fā)現(xiàn)、快速定位、快速解決帶來了諸多不確定性,從而影響到用戶體驗和SLA。
第三,缺少統(tǒng)一的評價體系:監(jiān)控對象都有獨立的評價標準,而這些標準缺少統(tǒng)一性,導致運維人員沒有指標體系的參考依據(jù),缺少對系統(tǒng)整體運行健康度進行管控,同時無法制定出統(tǒng)一的故障預警管理策略。
運維數(shù)據(jù)治理的原則
第一,統(tǒng)一數(shù)據(jù)維度:不同監(jiān)控系統(tǒng)的告警信息進行有效的關聯(lián)、收斂、壓縮,統(tǒng)一定義告警和事件級別,以及對應的處理(通知)流程;打通運維工具間的數(shù)據(jù)孤島,將全部運維監(jiān)控工具產(chǎn)生(采集)的數(shù)據(jù)進行統(tǒng)一的處理和存儲。確保每個業(yè)務系統(tǒng)的每個監(jiān)控指標都有唯一的、定義明確的數(shù)據(jù)來源。
第二,提升數(shù)據(jù)質量:不同監(jiān)控系統(tǒng)的數(shù)據(jù)源進行數(shù)據(jù)標準的重定義,依據(jù)國家、業(yè)界或者監(jiān)管機構的標準,再結合自身的實際情況對數(shù)據(jù)進行規(guī)范化處理;一般包括格式、編碼規(guī)則、字典值等,將處理后的多源異構的運維數(shù)據(jù)進行統(tǒng)一的存儲與關聯(lián)分析,從而提升運維數(shù)據(jù)的質量。
第三,確保數(shù)據(jù)實效性:運維數(shù)據(jù)往往存在大量的重復和冗余,同一個事件可能導致大量重復的指標、告警、日志等。通過過濾、降噪和聚合,把具備歷史分析價值的數(shù)據(jù)流轉到數(shù)據(jù)湖中進行分析,這不僅會節(jié)省時間,而且也能夠節(jié)省冗余數(shù)據(jù)的存儲和計算成本。
運維數(shù)據(jù)治理的目標
通過建設一體化的統(tǒng)一監(jiān)控平臺,可以幫助IT部門實現(xiàn)運維數(shù)據(jù)的三個統(tǒng)一:
第一,統(tǒng)一標準:實現(xiàn)運維數(shù)據(jù)處理規(guī)范中對數(shù)據(jù)采集、處理、存儲、展現(xiàn)的標準統(tǒng)一;實現(xiàn)運維事件和告警處理流程規(guī)范中對事件級別定義,處理流程定義、通知內容定義的標準統(tǒng)一;實現(xiàn)監(jiān)控指標定義中的SLO(服務等級目標)指標選取。
第二,統(tǒng)一數(shù)據(jù):元數(shù)據(jù)管理可以清晰展現(xiàn)數(shù)據(jù)從哪來,屬于誰,讓運維人員或者系統(tǒng)能夠更好地理解所獲取的數(shù)據(jù),同時通過統(tǒng)一的存儲與關聯(lián)分析將多源異構數(shù)據(jù)徹底打通。
第三,統(tǒng)一服務:用戶通過統(tǒng)一的服務接口(GUI/API)消費運維數(shù)據(jù)和功能。主要包括:數(shù)據(jù)呈現(xiàn)(大屏和儀表板)服務、數(shù)據(jù)分析服務(數(shù)據(jù)建模和查詢)、監(jiān)控指標異常檢測服務、監(jiān)控告警通知訂閱服務等。
運維數(shù)據(jù)治理解決方案
云智慧運維數(shù)據(jù)治理解決方案支持PB級、多種數(shù)據(jù)的采集、分析、存儲和管理,包括海量結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),且具備線性的橫向擴展能力。
運維數(shù)據(jù)的統(tǒng)一采集
通過并行多任務采集,提高數(shù)據(jù)采集效率及準確性,支持各類數(shù)據(jù)源(日志、監(jiān)控、業(yè)務、配置等)的配置信息錄入、查看、修改,并提供各類數(shù)據(jù)源的數(shù)據(jù)樣例展示。支持HTTP、Kafka、API、日志、文本、數(shù)據(jù)庫、自定義等多種方式數(shù)據(jù)接入,數(shù)據(jù)采集接口程序規(guī)范統(tǒng)一,同時具備監(jiān)控接口采集效率、統(tǒng)計采集數(shù)據(jù)量的能力。
運維數(shù)據(jù)的統(tǒng)一處理
高效數(shù)據(jù)處理機制:采用高性能混合存儲模式,非實時數(shù)據(jù)存儲全量數(shù)據(jù),實時數(shù)據(jù)在全量數(shù)據(jù)的基礎上實現(xiàn)增量存儲,相對于其它傳統(tǒng)的數(shù)據(jù)存儲查詢方式,存儲效率提高300倍。
可視化數(shù)據(jù)處理過程:數(shù)據(jù)處理提供圖形化操作界面,實現(xiàn)自助式數(shù)據(jù)分析與挖掘算法模型創(chuàng)建。整個數(shù)據(jù)處理過程,支持通過Web界面進行編輯,無需編輯程序代碼或Shell腳本,即可完成數(shù)據(jù)處理的復雜操作。
數(shù)據(jù)集成與ETL:提供數(shù)據(jù)集成實施和服務功能,從ETL 數(shù)據(jù)導入到SQL查詢以及全文檢索的一站式圖形化工作流,支持分布式的海量日志采集、聚合和傳輸。
運維數(shù)據(jù)的統(tǒng)一存儲
基于幾個核心場景:數(shù)據(jù)治理、數(shù)據(jù)集市、數(shù)據(jù)分析、數(shù)據(jù)應用等,持多種存儲介質和計算模型,同時具備可靠性、可用性、一致性、伸縮性。
1、監(jiān)控數(shù)據(jù)存儲:時序數(shù)據(jù)庫(ClickHouse、InfluxDB)
2、日志數(shù)據(jù)存儲:Elasticsearch、Hadoop/Hbase
3、分析報表數(shù)據(jù)存儲:MySQL等關系型數(shù)據(jù)庫
4、告警事件數(shù)據(jù)存儲:Redis數(shù)據(jù)庫
運維數(shù)據(jù)的統(tǒng)一服務
運維數(shù)據(jù)可以進行按需消費,根據(jù)運營和運維的需求,快速敏捷的創(chuàng)建面向特定場景的數(shù)據(jù)應用,充分釋放數(shù)據(jù)的價值。匯總數(shù)據(jù)、整合指標體系、制定相應標準,通過PC端、移動端、ECC大屏、Dashboard,數(shù)據(jù)展示業(yè)務健康、IT資源健康、用戶體驗、安全態(tài)勢以及問題事件等應用服務。
價值與展望
云智慧運維數(shù)據(jù)治理解決方案構建了一套完整的IT與業(yè)務系統(tǒng)的評價體系,為提高運維效率、優(yōu)化用戶體驗、改進服務流程、資產(chǎn)管理、運營決策等方面提供了強有力的支撐。運維數(shù)據(jù)治理不可一蹴而就,從業(yè)務發(fā)展、數(shù)據(jù)治理意識形成、數(shù)據(jù)治理體系運行、人員組織等需要一個長效機制來進行保障,這樣才能讓數(shù)據(jù)資產(chǎn)可以發(fā)揮更大的作用。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )