急診風(fēng)云—突發(fā)監(jiān)控告警
嗚瓦~~嗚瓦~~
午夜十二點(diǎn),KMonitor生命聯(lián)動(dòng)系統(tǒng)在監(jiān)測(cè)到金小倉(cāng)的內(nèi)存壓力過(guò)高后立即報(bào)警,120指揮中心接到警報(bào),迅速派出救護(hù)車將金小倉(cāng)送到了西虹市市立醫(yī)院的急診科,病人情況危急速請(qǐng)華生·K醫(yī)生到診室1進(jìn)行會(huì)診,醫(yī)生華生·K接過(guò)KMonitor內(nèi)存告警單,仔細(xì)查看起來(lái)。
KMonitor內(nèi)存監(jiān)測(cè)圖、告警單
“一般是查詢量突然增多導(dǎo)致的內(nèi)存壓力突增,先增加物理內(nèi)存試試吧。” 華生·K醫(yī)生給金小倉(cāng)插入了一根新的內(nèi)存條??粗鴥?nèi)存監(jiān)測(cè)圖中慢慢降下來(lái)的壓力值,他輕輕地拍了拍金小倉(cāng)安慰道:“別怕,只是查詢量突增而已,加根內(nèi)存條不就好了嘛。”隨后,金小倉(cāng)接過(guò)病歷單長(zhǎng)舒一口氣,心想還好身體內(nèi)置了KMonitor芯片,可以與醫(yī)院實(shí)時(shí)聯(lián)動(dòng),及時(shí)發(fā)現(xiàn)處理問(wèn)題。
硬核復(fù)診—高效處理故障
時(shí)隔兩周,金小倉(cāng)又出現(xiàn)在市立醫(yī)院的數(shù)據(jù)庫(kù)門診大廳,這次的他似乎神情略顯呆滯,慢吞吞地進(jìn)入診室。今天是華生·K醫(yī)生坐診,金小倉(cāng)說(shuō)道:“大夫,一周前客戶新增了應(yīng)用系統(tǒng)的業(yè)務(wù)模塊,就開(kāi)始覺(jué)得自己呆呆的,不知道哪里出了問(wèn)題。”華生·K醫(yī)生檢查起金小倉(cāng)的基本狀態(tài):舌苔暗沉、脈搏波動(dòng)略慢。“從這些癥狀來(lái)看,基本確定是因?yàn)樽罱恢芡辉龃罅繑?shù)據(jù)庫(kù)鏈接,導(dǎo)致查詢壓力過(guò)大,從而產(chǎn)生的鎖競(jìng)爭(zhēng)情況格外突出,同時(shí)CPU應(yīng)該有瓶頸。” 華生·K醫(yī)生依靠多年的臨床經(jīng)驗(yàn)心中慢慢分析,同時(shí)說(shuō)道,“再做個(gè)KMonitor檢查,它出具的檢查報(bào)告更加詳細(xì),可以確定問(wèn)題根源對(duì)癥下藥,順便再檢查下最近的內(nèi)存問(wèn)題,看看有沒(méi)有異常波動(dòng)。” 華生·K醫(yī)生將目前發(fā)現(xiàn)的問(wèn)題簡(jiǎn)單列到了病歷上。
隨后,便引金小倉(cāng)進(jìn)入了里面的檢查室。
“躺下不要?jiǎng)?,靜下心來(lái),深呼吸……”,一邊說(shuō)著,華生·K醫(yī)生一邊操作著新引進(jìn)的KMonitor設(shè)備為金小倉(cāng)做全身掃描檢查。片刻后,一張張檢查報(bào)告自動(dòng)打印了出來(lái)。
華生·K醫(yī)生盯著KMonitor出具的內(nèi)存檢查報(bào)告,看來(lái)新增的業(yè)務(wù)模塊對(duì)內(nèi)存的壓力還是很大的,內(nèi)存使用率都到95%了。
緊接著,華生·K醫(yī)生查看了KMonitor輸出的KingbaseES性能報(bào)告,最近兩周以來(lái),數(shù)據(jù)庫(kù)鏈接持續(xù)增長(zhǎng),緩存命中率逐步降低,說(shuō)明前期的診斷方向是正確的,提高內(nèi)存容量解決了部分問(wèn)題。
隨后華生·K醫(yī)生又翻看了近一個(gè)月來(lái)整體的性能壓力走勢(shì)圖,心中沉思道“壓力持續(xù)增長(zhǎng),可以考慮擴(kuò)容節(jié)點(diǎn),搞成讀寫分離集群形勢(shì),可以讓備節(jié)點(diǎn)分擔(dān)一些查詢壓力。”
最后華生·K醫(yī)生通過(guò)KMonitor檢查了金小倉(cāng)的SQL查詢情況,查詢報(bào)告中顯示出了“響應(yīng)時(shí)間抖動(dòng)最嚴(yán)重語(yǔ)句”“平均查詢時(shí)間最慢語(yǔ)句”等信息,華生·K醫(yī)生挨個(gè)語(yǔ)句進(jìn)行分析:
SQL語(yǔ)句的抖動(dòng)應(yīng)該與硬件資源壓力有關(guān),壓力一大同樣的查詢數(shù)據(jù)庫(kù)相應(yīng)的時(shí)間就會(huì)增大,這個(gè)需要升級(jí)硬件或者擴(kuò)容解決。
慢SQL的問(wèn)題,前面兩個(gè)語(yǔ)句都是perf表的查詢,響應(yīng)時(shí)間高達(dá)1s多,看來(lái)是這個(gè)表太大又沒(méi)有建立索引的問(wèn)題。
華生·K醫(yī)生依據(jù)KMonitor的檢查報(bào)告,又對(duì)病歷做了調(diào)整,同時(shí)提醒金小倉(cāng):“KMonitor是KingbaseES的專用檢查工具,可以做全身的體檢,提早發(fā)現(xiàn)隱患問(wèn)題,像你這種情況需要定期過(guò)來(lái)檢查一遍,不適及時(shí)就診。”
金小倉(cāng)按照病歷指導(dǎo)擴(kuò)容了一個(gè)節(jié)點(diǎn),又找推拿師針對(duì)大容量的幾個(gè)表(比如perf表)做了分區(qū)并重新建立索引,調(diào)整了數(shù)據(jù)庫(kù)參數(shù),新增了鏈接池模塊,似乎又回到了之前無(wú)憂無(wú)慮的快樂(lè)時(shí)光,客戶投訴率下降了好多。
3
體檢日記—預(yù)估潛在風(fēng)險(xiǎn)
一個(gè)月后,華生·K醫(yī)生照常在坐診,金小倉(cāng)看著華生·K醫(yī)生說(shuō):“華生醫(yī)生,我現(xiàn)在狀態(tài)好多了,不過(guò)昨天突然心跳加速了一下,當(dāng)即掛了您的號(hào),趕緊過(guò)來(lái)看看是怎么回事?”
華生·K醫(yī)生盯著前幾次的病歷記錄陷入沉思:這種異常情況難道是最近頻繁更換硬件的副作用嗎,但從升級(jí)報(bào)告來(lái)看是做過(guò)兼容壓力測(cè)試的啊。“不會(huì)是器質(zhì)性病變前兆吧,只能再做次KMonitor檢查了。”
金小倉(cāng)照舊躺在KMonitor檢查艙中,旁邊的華生·K醫(yī)生翻看起KMonitor吐出的一份份檢查報(bào)告。
突然這份服務(wù)器資源監(jiān)測(cè)報(bào)告引起了華生·K醫(yī)生的注意,在昨天12:00時(shí)CPU、內(nèi)存、磁盤壓力出現(xiàn)突刺現(xiàn)象,奇怪的是磁盤讀寫速率很低但磁盤使用率卻高達(dá)75%。
華生·K醫(yī)生使用KMonitor的磁盤檢測(cè)工具對(duì)所有磁盤做了一次全面掃描,發(fā)現(xiàn)一塊硬盤出現(xiàn)了十幾次C5警告,這是硬盤壞道的警告提示,華生·K醫(yī)生恍然大悟,看來(lái)它就是導(dǎo)致心跳加速的罪魁禍?zhǔn)?,幸虧有KMonitor這個(gè)集成化的監(jiān)測(cè)平臺(tái),不然定位這個(gè)問(wèn)題可就麻煩了。
“你心跳加速的原因找到了,這塊硬盤即將出現(xiàn)壞道……”華生·K醫(yī)生終于分析完所有報(bào)告,給出了最終結(jié)論,自己也長(zhǎng)舒了一口氣。
“壞道,竟然是壞道……”金小倉(cāng)像是聽(tīng)到了催命符一般,“還好來(lái)醫(yī)院檢查了,不然造成丟數(shù)事故后果不堪設(shè)想,我的年終績(jī)效就泡湯了。K醫(yī)生這個(gè)檢查設(shè)備真厲害啊,這種問(wèn)題都能查出來(lái)!”
華生·K醫(yī)生往常對(duì)丟數(shù)病患也是頭疼,出了丟數(shù)問(wèn)題修復(fù)困難,另一方面也沒(méi)有好的手段預(yù)防。
但好在有了KMonitor監(jiān)測(cè)工具,可以提前預(yù)警:“這是新引進(jìn)的設(shè)備KMointor,以后繼續(xù)定期來(lái)醫(yī)院體檢,它會(huì)提前預(yù)警很多疾病;你體內(nèi)的KMonitor芯片一直在監(jiān)測(cè)各種指標(biāo),一旦有異常情況會(huì)及時(shí)告警,我們醫(yī)院也會(huì)收到警告信息,及時(shí)為你提供針對(duì)性的解決方案。”
金小倉(cāng)毫不猶豫地更換了硬盤并利用備份集做了恢復(fù),多虧了KMonitor及早處理隱患,防患于未然。走出醫(yī)院的金小倉(cāng),嘴角微微揚(yáng)起,整個(gè)人彷佛脫胎換骨一般,因?yàn)樗荔w內(nèi)的KMonitor芯片正在實(shí)時(shí)地守護(hù)著自己。
華生·K醫(yī)生看著金小倉(cāng)離開(kāi)的背影,拿起電話:“福爾摩斯·K先生,我是華生,我回來(lái)了!”。
當(dāng)前疫情形勢(shì)依舊嚴(yán)峻,無(wú)數(shù)的企業(yè)、家庭和個(gè)人被籠罩在疫情的巨大陰影之下。
結(jié)語(yǔ)
在這場(chǎng)看不見(jiàn)硝煙的戰(zhàn)斗中,一線疫情防控工作者們默默堅(jiān)守在自己的崗位上,為大眾做好健康防護(hù)工作。
然而,昔日奔波于各個(gè)客戶現(xiàn)場(chǎng)的數(shù)據(jù)庫(kù)實(shí)施運(yùn)維和DBA,受疫情影響活動(dòng)受限,只能在客戶求助時(shí)遠(yuǎn)程介入,無(wú)法周期性巡檢。因此,那些在周期性巡檢時(shí)就能發(fā)現(xiàn)并解決的問(wèn)題,例如數(shù)據(jù)庫(kù)性能降低、硬件資源出現(xiàn)告警、CPU使用率過(guò)高、磁盤空間不足、網(wǎng)絡(luò)延遲超長(zhǎng)等,對(duì)于居家隔離的數(shù)據(jù)庫(kù)實(shí)施運(yùn)維和DBA而言,就變得鞭長(zhǎng)莫及,只能在這些問(wèn)題演變成了事故時(shí)四處救火。
人大金倉(cāng)KMonitor于此時(shí)橫空出世,立志成為數(shù)據(jù)庫(kù)背后的孤勇者,為購(gòu)買使用金倉(cāng)數(shù)據(jù)庫(kù)的用戶保駕護(hù)航,時(shí)刻關(guān)注他們?cè)谏a(chǎn)環(huán)境下金倉(cāng)數(shù)據(jù)庫(kù)的健康狀況,一旦發(fā)現(xiàn)問(wèn)題及時(shí)告警,幫助DBA和用戶及早處理隱患,防患于未然。
數(shù)據(jù)庫(kù)的健康守護(hù)者——KMonitor,于無(wú)聲處默默地堅(jiān)守自己的崗位,保障數(shù)據(jù)庫(kù)的健康運(yùn)行,保護(hù)用戶數(shù)據(jù)的安全。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )