在不確定性中尋找確定性。
01抵抗不確定性的“免疫力”
這次疫情“黑天鵝”,讓許多企業(yè)用戶開始意識到,系統(tǒng)的數(shù)字化能力是抵御包括疫情在內(nèi)的諸多不確定性風險以及未來就緒的最佳途徑。
通過將數(shù)字化轉(zhuǎn)化為生產(chǎn)方式,無縫融入商業(yè)模式和全場景體驗,構(gòu)建線上線下的一體化鏈條,讓企業(yè)真正獲得抵抗不確定性的“免疫力”;而這樣的前提在于:
第一,在如此快速變化的時代,業(yè)務和需求都在快速迭代,用戶的應用也正在更多的向云原生和微服務架構(gòu)轉(zhuǎn)型,這要求基礎設施能夠快速部署以及靈活可擴展;
第二,當下的經(jīng)濟環(huán)境,需要在技術(shù)先進性和經(jīng)濟合理性中找到平衡支點;
第三,如果說企業(yè)的“免疫力”來自于系統(tǒng)的數(shù)字化能力打造,那么穩(wěn)定、持續(xù)的數(shù)字化能力輸出大概率來自于系統(tǒng)的健壯性。核心的數(shù)據(jù)基礎設施如果同樣擁有了“免疫力”,無疑能夠更好的抵御各種故障對系統(tǒng)的沖擊,保證上層業(yè)務的正常運行。
02XSKY SDS V4.2正式發(fā)布
日前,為了幫助企業(yè)用戶更好的應對當下不確定性的大環(huán)境,增強抵抗各種不確定性的“免疫力”,XSKY正式迭代發(fā)布了V4.2版本,帶來了一系列新功能以及增強的特性,讓SDS更加可靠,易用和可運維。
本次版本中,帶來了數(shù)據(jù)校驗增強,硬盤亞健康處理,網(wǎng)絡亞健康處理,閑時自動重平衡四大重磅功能,從數(shù)據(jù)端到端安全、硬件組件的亞健康管理和容量管理三大領(lǐng)域進行“免疫力”提升,同時還帶來了場景化進一步增強等九項新增與優(yōu)化功能;并全新發(fā)布XSKY S3 Console對象接口產(chǎn)品,幫助客戶進一步降低使用對象產(chǎn)品的門檻。
基于上述發(fā)布,客戶在一系列業(yè)務場景中實現(xiàn)了性能倍增,以及面對多樣化的工作負載,進一步簡化運維,增強抵御系統(tǒng)故障的能力:
1、VMware場景,vSphere中vMotion、克隆操作的復制性能提升了1.5倍;
2、容器場景,Pod創(chuàng)建速度更快,以100個Pod創(chuàng)建速度為例,從30+分鐘優(yōu)化到4分鐘,效能提升7.5倍;
3、相同硬件配置情況下,整個系統(tǒng)支持對象數(shù)比上一個版本提升了1倍。
以上是場景中顯著提升的部分,同時還有整體系統(tǒng)性能穩(wěn)定性的提升。
03可靠性增強
1、高強度實時數(shù)據(jù)校驗
數(shù)據(jù)靜默錯誤是現(xiàn)代存儲系統(tǒng)最難處理的故障之一。現(xiàn)在機房周邊環(huán)境復雜,特別是SSD的大量使用,使得外部的強干擾導致本來輸入的0/1的高低電平發(fā)生改變而發(fā)生靜默錯誤的幾率越來越大。
XSKY過去版本在多副本(EC)數(shù)據(jù)保護已經(jīng)積累了大量的數(shù)據(jù)安全性保證措施,同時支持定期后臺數(shù)據(jù)掃描來檢查不一致。
在V4.2版本中,我們又增加了一個強有力的數(shù)據(jù)保護措施,通過在IO路徑加入了實時數(shù)據(jù)校驗機制來確保數(shù)據(jù)讀寫的即時安全。該措施使得在寫IO的時候,底層存儲引擎會計算寫入數(shù)據(jù)的CRC值并記錄到對應數(shù)據(jù)的元數(shù)據(jù)中;
讀IO的時候,會讀出數(shù)據(jù),同時計算CRC值然后與元數(shù)據(jù)中記錄的CRC比對,如果不一致,告警,使用其他副本數(shù)據(jù)來恢復,恢復后同步會打印告警消息。
實時IO流程的數(shù)據(jù)校驗使得分布式系統(tǒng)整體容錯性大大增強,同時解決了數(shù)據(jù)一致性的即時性問題,避免任何情況下應用從存儲系統(tǒng)中讀取可能的不一致數(shù)據(jù)。
實時數(shù)據(jù)校驗可以按照卷的粒度開啟或者關(guān)閉,內(nèi)部實驗室性能綜合測試評估對系統(tǒng)的性能峰值影響少于10%。建議關(guān)鍵業(yè)務開啟實時數(shù)據(jù)校驗功能,避免靜默錯誤的發(fā)生。
2、硬盤亞健康檢測
硬盤亞健康引起的系統(tǒng)性能抖動是分布式存儲極難處理的現(xiàn)象之一,自動檢測集群中的慢盤和壞盤,告警并自動隔離,是存儲系統(tǒng)在健壯性上的必要支撐。
在新版本中,XSKY進一步完善了檢測方法和處理機制。壞盤判斷相對簡單,會通過檢測SCSI/NVME的IO指令錯誤碼, 以及相關(guān)設備的介質(zhì)事件發(fā)生(如拔盤)等進行壞盤決策。
而判斷慢盤是最需要經(jīng)驗的。XSKY根據(jù)現(xiàn)網(wǎng)大量的已部署集群的工程經(jīng)驗,將算法應用到所有的存儲介質(zhì)守護進程(OSD)中進行實時分析,其采用三個維度來判斷慢盤:
? 縱向時延比較:本OSD的性能延遲超過閾值的次數(shù);
? 橫向時延比較:與存儲池內(nèi)其他OSD平均延遲進行比較,通過標準差計算相應偏離;
? IO粒度:當一個IO在本OSD對應介質(zhì)中處理超過一定時間的 。
這種立體的判斷方法,使得系統(tǒng)識別慢盤的準確度和速度都大幅提高。
新版本也進一步完善了慢盤的處理流程,采用告警-隔離-重試,逐步遞進:
? 告警:上述檢測機制發(fā)現(xiàn)的所有磁盤亞健康情況都會發(fā)送對應告警到界面,提示用戶檢查;
? 隔離:當且僅當出現(xiàn)IO粒度慢盤和壞盤時,系統(tǒng)會指定守護進程(OSD)自動退出;
? 重試:當且僅當出現(xiàn)IO粒度慢盤和壞盤情況OSD主動退出時,系統(tǒng)會根據(jù)對應的錯誤情況來連續(xù)嘗試拉起一定次數(shù)來,如繼續(xù)異常則不再拉起該OSD。重試過程中由于OSD已經(jīng)隔離退出,因此不會影響在線IO。
3、網(wǎng)絡亞健康檢測
分布式系統(tǒng),網(wǎng)絡的穩(wěn)定性對系統(tǒng)的性能影響非常大。XSKY SDS新版本可以自動識別集群網(wǎng)絡故障,發(fā)送告警信息,協(xié)助管理員快速排查網(wǎng)絡問題。
實現(xiàn)原理如下:
? 系統(tǒng)所有守護進程通過分布式網(wǎng)絡延遲檢測算法,實時判斷不同節(jié)點的網(wǎng)絡延遲和副本之間數(shù)據(jù)復制的網(wǎng)絡延遲來獲得當前系統(tǒng)內(nèi)所有節(jié)點的實時網(wǎng)絡情況;
? 計算出系統(tǒng)所有節(jié)點中1min, 5min, 15min內(nèi)的網(wǎng)絡延遲的平均值作為評判基線;
? 遍歷系統(tǒng)所有節(jié)點的1min,5min,15min的網(wǎng)絡延遲數(shù)據(jù),通過標準差計算分析偏離指數(shù),當指數(shù)超過閾值時則認為網(wǎng)絡有問題。
4、存儲池容量分布閑時自動重平衡
分布式存儲,在進行擴容或者縮容的時候,會觸發(fā)存儲池進行重平衡。由于算法的拓撲適應性或者人為干預,也有小概率情況下出現(xiàn)算法自動計算的存儲池容量不平衡的情況出現(xiàn)。
以前出現(xiàn)這種情況,需要運維人員進行手動的容量再平衡。在新版本中,加入了智能檢測這種情況并且智能啟動重平衡的全自動化處理流程,避免極端情況下由于某個OSD寫滿(超過閾值)而引起業(yè)務不能寫入的現(xiàn)象。
分布式存儲系統(tǒng)利用閑時(晚上12點-2點,可配置),對于容量不均衡的存儲池(容量差異大于1%)進行重平衡。自動重平衡會以最低恢復帶寬進行,也可以關(guān)閉,避免對峰值業(yè)務造成影響。
04場景化增強
1、OpenStack場景優(yōu)化
很多用戶選擇XSKY SDS代替OpenStack自帶的開源軟件定義存儲。為了解決資源消耗問題,XSKY自研了具有專利技術(shù)的 XDC模塊,提供LibRBD proxy代理,通過代理劫持客戶端訪問RBD的命令,將無序的訪問命令統(tǒng)一管理起來,根據(jù)系統(tǒng)資源使用情況按需打開RBD通道,從而達到資源的有效管理。
在快照選擇上,XSKY提供ROW(Redirect on Write)技術(shù)。傳統(tǒng)存儲COW快照后在寫性能方面的效率要比ROW低很多,但是在讀性能ROW的效率要低于COW快照。而軟件定義存儲的整體性能可由多節(jié)點負擔,且XSKY產(chǎn)品在讀性能方面做了大量優(yōu)化,因此,在SDS產(chǎn)品中采用ROW快照,可有效規(guī)避傳統(tǒng)存儲創(chuàng)建快照后存在的性能問題。
但上述改動使得OpenStack支持多套存儲和跨池克隆等場景處理起來比較復雜。在新版本里,XSKY通過對納管開源Ceph,在線數(shù)據(jù)遷移和跨池克隆等功能模塊持續(xù)進行優(yōu)化,性能和穩(wěn)定性都得到較大的提升。
2、VMware場景優(yōu)化
XSKY內(nèi)部統(tǒng)計,大約有1/3的存儲應用場景都是VMware場景。在新版本中,XSKY持續(xù)對VAAI接口進行優(yōu)化。本版本的優(yōu)化主要有兩點:
? UNMAP的支持粒度從4M改為1M。因為ESXi應用大部分都是1M粒度,所以對于ESXi的UNMAP操作可以顯著增加容量釋放空間;
? XCOPY直接從最底層OSD到OSD進行數(shù)據(jù)復制,性能提升1.5倍。對于虛機克隆和遷移操作顯著減少了時間。
3、容器場景優(yōu)化
新版本針對CSI的API接口持續(xù)進行優(yōu)化,提升批量創(chuàng)建Pod的速度,提升了單集群支持Pod的數(shù)量,并且把通過API創(chuàng)建的資源和通過系統(tǒng)UI創(chuàng)建的資源進行隔離,提升了安全性。
XSKY的CSI很早就支持RAW卷、卷擴容、快照和克隆等增值特性。這次新版本加入了對用戶名和密碼進行加密保存的支持,并且支持容器的MPIO特性,在三層網(wǎng)絡下也可以部署延展集群,實現(xiàn)容器的同城雙活。
4、S3對象存儲策略優(yōu)化
對象存儲在企業(yè)市場使用,和公有云場景不同,需要更多的精細化管理控制。在這次發(fā)布的新版本里,IT管理員可以根據(jù)業(yè)務需要,對S3用戶通過API創(chuàng)建的存儲桶可以靈活指定存儲策略。
如上圖所示,如果管理員允許使用Location參數(shù),S3 用戶調(diào)用 S3 Put Bucket API 創(chuàng)建存儲桶時,可以使用攜帶 LocationConstraint 參數(shù)來指定要使用的存儲策略。
但是如果管理員想控制某些用戶的存儲策略,則可以通過設置禁止使用Location參數(shù),則S3用戶創(chuàng)建桶時只能選擇管理員設置好的存儲策略(可以指定某個策略,也可以使用缺省策略,甚至可以在不同策略里輪詢)。
05可運維增強
1、集成巡檢工具
從V4.2版本開始,XSKY SDS管理節(jié)點內(nèi)置了巡檢工具,只需要啟動運行,就可以自動完成巡檢并提交巡檢報告。在V4.2版本以前的集群,可以從官網(wǎng)下載最新的工具進行集群巡檢。
獲得巡檢結(jié)果后,通過官網(wǎng)上傳巡檢結(jié)果文件,后臺XSKY售后支持系統(tǒng)會利用內(nèi)部知識庫以及智能分析系統(tǒng)來進行故障或隱患的發(fā)現(xiàn),生成巡檢報告,并提供給用戶。
2、文件訪問日志
支持針對文件的操作,進行日志記錄,滿足審計等客戶需求,方便操作追溯。
3、告警記錄優(yōu)化
告警記錄優(yōu)化,增加了告警自動恢復機制,錯誤碼,告警原因,詳情和處理意見,使得用戶可以自行針對處理建議進行修復,也增強了系統(tǒng)的透明性,使得運維更便捷。
4、優(yōu)化歸并文件空洞掃描
可按照策略進行空間掃描進行二次歸并,及時進行空間回收,提高對象存儲空間使用率。
5、存儲桶對象數(shù)規(guī)格提升和告警優(yōu)化
新版本對索引池的性能進行持續(xù)優(yōu)化,相同硬件配置的情況下,整個系統(tǒng)支持對象數(shù)比上一個版本提升了1倍。并且可以在界面看到單桶已經(jīng)存儲文件數(shù)量,超出存儲文件數(shù)閾值限制寫入,保證已寫入桶數(shù)據(jù)的預期性能。
06推出全新XSKY S3 Console軟件
對象存儲通過S3 API來使用,這種方式對于很多企業(yè)用戶來說不太直觀。他們希望有一個工具,可以類似公有云一樣,實現(xiàn)文件的上傳和下載等基本的操作。
XSKY S3 Console是一款面向XSKY S3用戶的便捷管理對象存儲服務的圖形化Web應用程序,主要提供了豐富的桶、文件夾及文件等級別的管理功能。幫助使用XSKY對象產(chǎn)品的客戶降低使用門檻。
本次新版本中,XSKY的對象存儲內(nèi)置了S3 Console功能。用戶只需要安裝好對象存儲,打開瀏覽器就可以直接基于S3 Console來使用對象存儲。
通過XSKY S3 Console,對象存儲就不僅僅只適合開發(fā)人員使用,普通用戶也可以很方便的使用對象存儲。
07小結(jié)
XSKY SDS V4.2的發(fā)布,使得XSKY SDS的健壯性、性能、易用性和可運維能力都有了大幅的提升,保證上層業(yè)務穩(wěn)定運行,助力客戶利用SDS的優(yōu)勢更加敏捷應對疫情帶來的影響。XSKY S3 Console,則拉近了對象存儲和用戶的距離,可以加快對象存儲在企業(yè)中的普及。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。