科技云報道原創(chuàng)。
在IT行業(yè),運維人常常自我調(diào)侃“賺著5k的月薪,操著5千萬的心,名下掛著5億的資產(chǎn)”。
機房的暖通、網(wǎng)絡(luò)、綜合布線,系統(tǒng)的監(jiān)控告警、故障響應(yīng)等一大堆繁雜瑣碎的工作,充斥著運維人的日常。
與開發(fā)和產(chǎn)品相比,運維更像是一個后勤角色,這一行業(yè)也長期處于公眾視野的暗處。
隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的興起,運維行業(yè)也迎來了新的技術(shù)變革。
2016年,Gartner提出智能運維AIOps的概念,旨在使用大數(shù)據(jù)、機器學(xué)習(xí)等方法來提升運維能力,其目的是進一步降低自動化運維中人為干擾,最終實現(xiàn)運維無人化、自動化。Gartner預(yù)測,到2020年,AIOps的采用率將會達(dá)到50%。
六年過去了,AIOps技術(shù)發(fā)展得如何?
AIOps的實現(xiàn)思路
一種新的工作模式出現(xiàn),必然會對原來穩(wěn)定的工作模式進行改變,改變通常會受到新挑戰(zhàn),所以新工作模式需要能解決當(dāng)前運維工作中遇到的難題而出現(xiàn)。
以金融行業(yè)的業(yè)務(wù)連續(xù)性管理為例,目標(biāo)是提高公司的風(fēng)險防范能力、有效地減少非計劃的業(yè)務(wù)中斷、防范運維操作風(fēng)險,對于首次出現(xiàn)的未知異常能夠利用工具量化分析并快速定位,確保在重大災(zāi)難性事件發(fā)生后能按計劃恢復(fù)業(yè)務(wù)連續(xù)性。
在面對當(dāng)前復(fù)雜的技術(shù)架構(gòu)、不斷引入的創(chuàng)新技術(shù)之下,傳統(tǒng)運維團隊原來被動救火式、問題驅(qū)動式的經(jīng)驗運維,已經(jīng)很難實現(xiàn)業(yè)務(wù)連續(xù)性的保障目標(biāo)。
金融企業(yè)運行安全穩(wěn)定,需要運維數(shù)據(jù)賦予數(shù)據(jù)洞察、輔助決策、跟蹤執(zhí)行的能力,提升復(fù)雜環(huán)境下的運維管理能力。
例如:實時獲得“發(fā)生了什么”?關(guān)聯(lián)分析“為什么會發(fā)生”?智能預(yù)測“將會發(fā)生什么”?決策判斷“采取什么措施”?自動執(zhí)行“如何快速執(zhí)行”?實時感知“工作執(zhí)行的效果”?
AIOps就是為了解決上述問題而生,其價值在于通過機器學(xué)習(xí)來進行運維數(shù)據(jù)的挖掘,幫助人甚至代替人進行更有效和快速的決策,從而提升業(yè)務(wù)系統(tǒng)的SLA,減小故障處理的時間等,帶來業(yè)務(wù)的價值,并最終實現(xiàn)真正意義上的無人值守運維。
如Gartner定義中提出,AIOps應(yīng)用需要利用大數(shù)據(jù),現(xiàn)代機器學(xué)習(xí)技術(shù)和其他高級分析技術(shù),是一種相對較高門檻的工作模式。
為了更好地落地AIOps,運維組織需要深刻地理解AIOps的內(nèi)涵,重點實現(xiàn)思路分為以下幾個方面:
?以數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)為先,AIOps需要快速生產(chǎn)高質(zhì)量數(shù)據(jù)的能力。
“快速”的思路可以以“中臺”思路進行建設(shè),建立統(tǒng)一的數(shù)據(jù)采控、實時與批量的數(shù)據(jù)處理能力、與運維相匹配的運維算法、存儲方案、主數(shù)據(jù)、指標(biāo)模型等;
“高質(zhì)量”則從將分散數(shù)據(jù)統(tǒng)一、在線后形成“活數(shù)據(jù)”,以及數(shù)據(jù)質(zhì)量上的治理。
從技術(shù)實現(xiàn)看,具備實時“采、存、算、管、用”的數(shù)據(jù)流動全生命周期管理的能力。
其中,數(shù)據(jù)采集是按需在線采集數(shù)據(jù)的能力;
數(shù)據(jù)存儲是根據(jù)數(shù)據(jù)類型、數(shù)據(jù)應(yīng)用特點對數(shù)據(jù)進行歸檔、整理、傳輸、共享;
數(shù)據(jù)計算包括數(shù)據(jù)標(biāo)注、清洗、建模、加工、標(biāo)準(zhǔn)化、質(zhì)量監(jiān)控,以及為了獲得數(shù)據(jù)洞察、決策、執(zhí)行而對數(shù)據(jù)進行分析統(tǒng)計;
數(shù)據(jù)管理重點圍繞數(shù)據(jù)治理,包括運維數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的管理;
數(shù)據(jù)使用重點圍繞數(shù)據(jù)服務(wù)角度涉及的數(shù)據(jù)目錄、服務(wù)門戶,以及配套的數(shù)據(jù)服務(wù)化能力。
以算法為支撐算法大腦,適配、引入特定場景下運維算法,構(gòu)建算法模型體系。機器學(xué)習(xí)尤其是深度學(xué)習(xí)的大規(guī)模應(yīng)用,推動了人工智能的快速發(fā)展。
隨著國內(nèi)TO B市場的火爆,AIOps上人工智能研究及應(yīng)用正處于爆發(fā)期,引入AI技術(shù)的算法有三點優(yōu)勢:
一是工作穩(wěn)定性高,人工智能可不知疲倦地進行工作,在規(guī)律性問題的分析時不受環(huán)境影響。
二是降低操作風(fēng)險,利用人工智能取代傳統(tǒng)人工經(jīng)驗操作,可更好地避免操作風(fēng)險和道德風(fēng)險。
三是有效提高決策效率,人工智能可以快速地對大數(shù)據(jù)進行篩選和分析,幫助人們更高效率地決策。
以場景為導(dǎo)向場景驅(qū)動,以痛點、價值期望切入點,用智能賦能運維場景,落地智能運維能力。
AIOps從詞來看,應(yīng)該包括“AI+Ops”,是用AI賦能運維場景的模式。
有了上面提到的數(shù)據(jù)底座與算法大腦,下一步是AIOps運維模式的落地,主要將圍繞場景的落地:一種是利用算法賦能已有的運維場景,另一種是算法實現(xiàn)原來無法實現(xiàn)的運維場景。
前者是一個快速見效的模式,后者是應(yīng)對變化而做出的變化。
以知識為擴展運維知識描述了大量運維領(lǐng)域的相關(guān)對象定義、技巧,以及排故/解決經(jīng)驗的信息。
通過構(gòu)建運維知識圖譜,利用自然語義等算法技術(shù),從海量數(shù)據(jù)中自動挖掘各類運維主體,對其特性進行畫像和結(jié)構(gòu)化描述,動態(tài)記錄運維主體之間的關(guān)聯(lián)關(guān)系,可以幫助IT人員實現(xiàn)故障鏈傳播分析、根因定位、智能的變更影響分析、故障預(yù)測等多種AIOps場景。
值得注意的是,軟件的一些“算法邏輯”不代表真正的AIOps,判斷是否是真正AIOps的關(guān)鍵點在于:是否能自動從數(shù)據(jù)學(xué)習(xí)中總結(jié)規(guī)律,并利用規(guī)律對當(dāng)前的環(huán)境給予決策建議。
? 國內(nèi)AIOps處于起步階段
AIOps的概念非常美好,應(yīng)用空間也相當(dāng)廣闊。除了互聯(lián)網(wǎng),在金融、物聯(lián)網(wǎng)、醫(yī)療、通信、工業(yè)等領(lǐng)域,均表現(xiàn)出對智能運維的強烈需求。
數(shù)據(jù)顯示,2020年中國IT智能運維市場規(guī)模為560.8億元,年復(fù)合增速為20.1%,預(yù)計未來以15.9%復(fù)合增速擴張,2025年市場規(guī)模達(dá)1093.5億元,表現(xiàn)出較大的市場潛力。
目前,我國政府部門也陸續(xù)出臺《推動企業(yè)上云實施指南(2018-2020年)》《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》等一系列政策,推動智能運維領(lǐng)域的發(fā)展。
但必須承認(rèn)的是,我國智能運維還處在起步階段。
盡管國內(nèi)運維行業(yè)在2016年前后迎來了一波融資熱,但目前運維行業(yè)整體還比較落后。
一方面,技術(shù)有限,在線系統(tǒng)本身具有規(guī)模性和復(fù)雜性,是需要長期投入的研究領(lǐng)域;另一方面,智能運維需要高質(zhì)量的標(biāo)注數(shù)據(jù),但運維數(shù)據(jù)積累明顯不足,至少還需積累3-5年。
事實上,產(chǎn)品不落地、善于融資、估值虛高,是一些智能運維公司給業(yè)內(nèi)人留下的印象。
目前國內(nèi)大部分公司在技術(shù)層面的原創(chuàng)力都還不夠強,很多都是利用國外的開源代碼,有的公司甚至將幾個開源產(chǎn)品拼湊在一起,內(nèi)部之間仍是相互獨立、割裂的,沒有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力運維支持。
因此,盡管隨著技術(shù)的發(fā)展,運維行業(yè)已初步進入自動化、智能化初級階段,但現(xiàn)階段運維仍舊是一個“費人”的行業(yè)。
為了規(guī)范國內(nèi)智能運維領(lǐng)域的發(fā)展,中國信息通信研究院發(fā)布了《智能化運維AIOps能力成熟度模型》系列標(biāo)準(zhǔn)。
在此內(nèi)容基礎(chǔ)上,由中國信通院牽頭的國內(nèi)外首個智能運維(AIOps)國際標(biāo)準(zhǔn)在國際電信聯(lián)盟第十三研究組ITU-T SG13也已成功立項。
在《智能化運維AIOps能力成熟度模型》中,面向智能運維整體能力建設(shè),規(guī)定了對IT系統(tǒng)或平臺進行智能化運維的參考框架及分級評估方法,提出了關(guān)于企業(yè)建設(shè)智能化運維能力的實施路徑,能夠指導(dǎo)國內(nèi)互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)在智能運維方向的相關(guān)實踐落地。
結(jié)語
“建立一個可供數(shù)百萬人每天使用,但只需一名兼職人員管理和維護的系統(tǒng)。”這是吉姆·格雷(Jim Gray)在1999年獲得圖靈獎時對無故障服務(wù)器系統(tǒng)的暢想。如今,隨著AIOps的開發(fā),我們比以往任何時候都更接近這一愿景,并有望超越這一愿景。
盡管AIOps仍處于起步階段,但智能化給運維領(lǐng)域帶來效率上的質(zhì)變已肉眼可見。
這個領(lǐng)域的持續(xù)創(chuàng)新將為更多企業(yè)帶來新的業(yè)務(wù)價值。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。