導(dǎo)語
為從海量數(shù)據(jù)中高效、實時、安全、簡便地挖掘價值,柏睿數(shù)據(jù)推出一站式大數(shù)據(jù)平臺Rapids Lizard,采用無中心架構(gòu),實現(xiàn)數(shù)據(jù)庫的高可擴展性、高可靠性、高安全性和易運維,能夠更好地支持海量數(shù)據(jù)處理和分析,助力企業(yè)加速實現(xiàn)數(shù)字化運營,驅(qū)動業(yè)務(wù)增長和創(chuàng)新。
從單機、集群架構(gòu)到無中心架構(gòu)
大數(shù)據(jù)時代,為滿足不斷增長的數(shù)據(jù)規(guī)模和并發(fā)訪問需求,數(shù)據(jù)庫經(jīng)歷了從單機架構(gòu)到集群架構(gòu)、分布式架構(gòu)的演進,以提高數(shù)據(jù)庫的可用性、可擴展性和處理分析性能。其中分布式架構(gòu)又分為主從架構(gòu)、多主架構(gòu)和分布式無中心架構(gòu)等常見類型。
我們可以通過“開飯館”的故事簡單直觀地了解這幾種分布式架構(gòu)的特點。
假設(shè)我們創(chuàng)業(yè)開了一家小飯館,經(jīng)過辛勤經(jīng)營,飯店的生意越來越好,單靠我們自己已經(jīng)很難兼顧后廚管理了,于是提拔了一位老員工擔(dān)任廚師長,來專門管理后廚各個廚師。此時廚師長相當(dāng)于主節(jié)點,其他廚師相當(dāng)于從節(jié)點;主節(jié)點負責(zé)協(xié)調(diào)所有從節(jié)點的工作,而從節(jié)點則負責(zé)執(zhí)行具體的任務(wù),此時整個后廚構(gòu)成了主從架構(gòu);這種架構(gòu)簡單易于實現(xiàn),但存在單點故障問題;如果主廚請假了,整個廚房可能無法正常運行。
后來,我們的業(yè)務(wù)越做越大,后廚設(shè)立了兩個出餐組,并在兩個區(qū)域各任命一個主廚來分別管理各自區(qū)域;兩位主廚之間協(xié)調(diào)合作,確保整個廚房順利運作。此時,兩位主廚相當(dāng)于多個主節(jié)點,它們協(xié)調(diào)所有從節(jié)點的工作,整個后廚構(gòu)成多主架構(gòu)。這種架構(gòu)可以實現(xiàn)更高的容錯性,但可能出現(xiàn)數(shù)據(jù)不一致或不完整的情況。
還有一種便是完全無中心架構(gòu)。假如我們沒有在兩個出餐組內(nèi)分別任命主廚,因此廚師們之間沒有固定的主從關(guān)系,而是通過協(xié)商來決定由誰負責(zé)制作哪道菜。此時,每個出餐組相當(dāng)于一個節(jié)點,整個后廚相當(dāng)于一個分布式無中心系統(tǒng);每個節(jié)點都獨立運作,負責(zé)處理分配給它的請求。這種架構(gòu)在后廚中運用看起來會面臨分工不明確、缺乏管理等問題,但作為數(shù)據(jù)庫的技術(shù)架構(gòu),它較其他架構(gòu)有著無可比擬的優(yōu)勢。
如上圖,具體而言,在無中心架構(gòu)下,整個數(shù)據(jù)庫系統(tǒng)沒有一個中心節(jié)點,集群中每個節(jié)點都是平等的,每個節(jié)點都可以向其他節(jié)點發(fā)送或接收信息,獨立處理和存儲數(shù)據(jù),并通過節(jié)點之間的協(xié)調(diào)和通信完成整個系統(tǒng)的任務(wù)。該架構(gòu)系統(tǒng)具備高可擴展性、可靠性、安全性和易運維,避免傳統(tǒng)的單點故障問題,這也是柏睿數(shù)據(jù)大數(shù)據(jù)平臺Rapids Lizard采用無中心分布式架構(gòu)的重要原因。
柏睿數(shù)據(jù)大數(shù)據(jù)平臺Rapids Lizard是集成數(shù)據(jù)采集、存儲、計算分析、治理與可視化的實時大數(shù)據(jù)平臺與解決方案,擁有開源架構(gòu)數(shù)十倍的性能優(yōu)勢,基于低代碼、全流程、模塊化的方式,為企業(yè)提供一站式數(shù)據(jù)資產(chǎn)管理和大數(shù)據(jù)智能應(yīng)用與服務(wù)。
為打造平臺化一體化產(chǎn)品,集成數(shù)據(jù)存儲平臺、數(shù)據(jù)計算平臺、數(shù)據(jù)應(yīng)用平臺等子平臺,以及子平臺內(nèi)部的多個功能項,柏睿數(shù)據(jù)Rapids Lizard采用無中心分布式架構(gòu)構(gòu)建湖倉一體化解決方案,支撐大規(guī)模數(shù)據(jù)存儲,解決數(shù)據(jù)表的分布式讀寫存放,滿足高并發(fā)、大規(guī)模的計算查詢等大數(shù)據(jù)應(yīng)用場景需求。
二、Rapids Lizard無中心架構(gòu)優(yōu)勢
柏睿數(shù)據(jù)大數(shù)據(jù)平臺Rapids Lizard采用無中心架構(gòu),具備以下核心優(yōu)勢:
高可擴展性:根據(jù)實際需求支持集群動態(tài)擴容縮容,集群擴展幾乎是無限制的。同時整體集群可達到查詢性能高于開源Spark數(shù)十倍。
高可靠性:使用分區(qū)鍵進行Hash分區(qū)實現(xiàn)數(shù)據(jù)在不同數(shù)據(jù)節(jié)點中的均衡負載,當(dāng)某個節(jié)點發(fā)生故障時,其他節(jié)點仍然工作,從而保證了系統(tǒng)的可靠性;同時多節(jié)點數(shù)據(jù)備份不會導(dǎo)致整個系統(tǒng)的數(shù)據(jù)丟失或不可用。
高安全性:每個節(jié)點都具有相同的權(quán)限和責(zé)任,因此不存在單點故障和單點攻擊的問題。分布式散列算法分配數(shù)據(jù)和任務(wù),保證數(shù)據(jù)的最終一致性、安全性和完整性。
易于維護和升級:集群角色統(tǒng)一化,用戶能夠單獨對每個節(jié)點進行維護和升級,過程不會影響整個系統(tǒng)的運行,大大降低維護者運維的復(fù)雜性。同時,通過自動化部署和管理,減少了人力和物力成本。
三、Rapids Lizard無中心架構(gòu)原理與實踐
柏睿大數(shù)據(jù)平臺 Rapids Lizard 以松耦合多層級架構(gòu),其主要核心模塊由數(shù)據(jù)存儲、數(shù)據(jù)計算分析和任務(wù)調(diào)度系統(tǒng)組成,下面將逐步介紹Rapids Lizard在這三大核心模塊中如何實現(xiàn)統(tǒng)一的無中心架構(gòu)。
1、數(shù)據(jù)存儲
Rapids Lizard 基于分布式、無中心架構(gòu)設(shè)計的柏睿存儲管理系統(tǒng)Rapids Store作為底座,滿足支持海量存儲容量管理,為用戶提供高性能的穩(wěn)定網(wǎng)絡(luò)存儲。
存儲客戶端能夠同時從所有存儲節(jié)點讀寫數(shù)據(jù),大大提升了數(shù)據(jù)讀寫速度與可用性。
多副本技術(shù)保障數(shù)據(jù)文件的可靠性。Rapids Store將每份數(shù)據(jù)分成多份,每份數(shù)據(jù)同時寫入多個主機的不同磁盤中,當(dāng)某個磁盤或主機出現(xiàn)故障時,存儲客戶端還能從其他副本中正常讀寫數(shù)據(jù)。
支持故障域自治,自動遷移故障數(shù)據(jù)、恢復(fù)平衡數(shù)據(jù)。
Rapids Store為虛擬機提供磁盤快照功能,通過快照方式快速保存虛擬機磁盤中的重要文件、程序配置信息等。
內(nèi)部集成KVE虛擬化計算和RapidStore功能。集群的物理節(jié)點可以同時用于計算(運行虛擬機和容器)和多副本存儲;因此傳統(tǒng)的計算資源和存儲資源管理功能可以由統(tǒng)一的超融合應(yīng)用實現(xiàn),無需再部署專用存儲網(wǎng)絡(luò)設(shè)備(SANs)和網(wǎng)絡(luò)存儲設(shè)備(NAS)。
2、數(shù)據(jù)計算分析
Rapids Lizard 基于柏睿數(shù)據(jù)全內(nèi)存分布式數(shù)據(jù)庫RapidsDB作為計算分析引擎,滿足PB級別數(shù)據(jù)存儲和在線實時分析;采用分布式計算與存儲分離架構(gòu),支持集群動態(tài)擴容縮容。
其基本原理包括:
數(shù)據(jù)分片:將整個數(shù)據(jù)集按照某種規(guī)則劃分成多個片段,然后將這些片段存儲在不同的節(jié)點上;能夠解決單一節(jié)點存儲數(shù)據(jù)量過大,導(dǎo)致性能下降和可擴展性受限的問題。
數(shù)據(jù)復(fù)制:為了保證數(shù)據(jù)的可靠性和容錯性,RapidsDB支持內(nèi)部HA模式,即數(shù)據(jù)會復(fù)制到多個節(jié)點上。主要支持成對模式和負載均衡模式。
數(shù)據(jù)一致性:RapidsDB基于CAP原理滿足數(shù)據(jù)最終一致性。對于在內(nèi)存中的數(shù)據(jù),支持以事務(wù)日志和快照的方式,保障數(shù)據(jù)一致性。
負載均衡:為避免節(jié)點之間出現(xiàn)負載不均衡的情況,RapidsDB采用基于算法的負載均衡策略進行資源和任務(wù)的調(diào)度。
分布式計算:把需要進行大量計算的工程數(shù)據(jù)劃分為多個小任務(wù),由各個數(shù)據(jù)節(jié)點進行獨立計算處理,各個節(jié)點基于通訊協(xié)議保障任務(wù)正確執(zhí)行和結(jié)果正確,并合并得到最終結(jié)果。Rapids Lizard作為開放性大數(shù)據(jù)平臺,除了自研計算引擎RapidsDB外,兼容Spark、Flink等分布式計算引擎。
故障恢復(fù):RapidsDB支持主備集群切換、集群內(nèi)HA數(shù)據(jù)復(fù)制、數(shù)據(jù)備份恢復(fù)等策略,應(yīng)對節(jié)點之間通信和協(xié)調(diào)出現(xiàn)延遲、丟包及節(jié)點本身故障等問題。
安全機制:RapidsDB支持常見的安全措施,包括數(shù)據(jù)權(quán)限、身份驗證、訪問控制等,來保障數(shù)據(jù)的安全性。
3、任務(wù)調(diào)度
Rapids Lizard的任務(wù)調(diào)度部分由Rapids Schedulis負責(zé),它基于去中心化架構(gòu),是一個分布式易擴展的可視化工作流任務(wù)調(diào)度平臺。以可視化DAG工作流、任務(wù)調(diào)度、資源管理等功能,致力于解決Rapids Lizard平臺中的復(fù)雜數(shù)據(jù)處理和計算資源分配問題。
其具體組件包括:
MasterServer:主要負責(zé)DAG任務(wù)切分、任務(wù)提交,以及檢測健康狀態(tài)
WorkferServer:支持定義任務(wù)插件,負責(zé)任務(wù)執(zhí)行和日志服務(wù)
RapidsDB:工作流元數(shù)據(jù)管理、告警相關(guān)功能支持
API:處理前端UI請求。提供統(tǒng)一RESTFUL API服務(wù)
UI:系統(tǒng)前端頁面
四、應(yīng)用場景與收益
采用柏睿大數(shù)據(jù)平臺Rapids Lizard基于無中心分布式架構(gòu),具備了橫向擴展能力、高數(shù)據(jù)負載均衡性、低運維成本、低延遲和高吞吐量等優(yōu)勢,能夠更好地應(yīng)對實時數(shù)據(jù)處理要求。
因此,Rapids Lizard適用于金融、運營商、交通等行業(yè)中數(shù)據(jù)量大、安全性要求高的業(yè)務(wù)場景中,以及智能短信、搶購秒殺等對實時性能和并發(fā)性能要求高的實時分析場景中,同時非常有利于在云上提供高性價比的服務(wù),讓企業(yè)的大數(shù)據(jù)應(yīng)用更高效、更安全、更簡便靈活、更高性價比,加速實現(xiàn)數(shù)字化運營,驅(qū)動業(yè)務(wù)增長和創(chuàng)新。
某地市軌道交通公司依托柏睿大數(shù)據(jù)平臺Rapids Lizard,搭建了基于無中心分布式架構(gòu)的智慧交通大數(shù)據(jù)平臺,充分解決了用戶數(shù)據(jù)量大且多元化及應(yīng)用架構(gòu)復(fù)雜化帶來的性能瓶頸、數(shù)據(jù)安全等問題,同時實現(xiàn)了平臺長期安全穩(wěn)定的運轉(zhuǎn),不僅在日程使用過程中,實現(xiàn)了存儲、計算資源的統(tǒng)一負載管理,還在運維管理中滿足了數(shù)據(jù)多副本、數(shù)據(jù)多種形式備份、數(shù)據(jù)分區(qū)容錯等要求。
五、未來展望
柏睿大數(shù)據(jù)平臺Rapids Lizard的無中心架構(gòu)演變遵循技術(shù)和市場的發(fā)展趨勢,將朝著更加高性能、智能化、安全可靠、靈活的方向發(fā)展,以滿足數(shù)字經(jīng)濟時代下大規(guī)模數(shù)據(jù)的實時采集、存儲、計算分析、治理與可視化需求。
Rapids Lizard的無中心架構(gòu)重點關(guān)注以下技術(shù)發(fā)展方向:
智能化管理:Rapids Lizard的原生AI機器學(xué)習(xí)模塊AIworkflow通過對平臺內(nèi)部數(shù)據(jù)的建模分析,能夠?qū)崿F(xiàn)自動化的節(jié)點管理和控制,提高系統(tǒng)的可靠性和效率,還能夠?qū)τ脩粝到y(tǒng)進行預(yù)防性設(shè)備檢測和運維處理。未來Rapids Lizard將更深層運用機器學(xué)習(xí)和人工智能技術(shù),實現(xiàn)平臺的智能化管理。
更加靈活的數(shù)據(jù)分片:未來的無中心架構(gòu)將會采用更加靈活的數(shù)據(jù)分片方式,以適應(yīng)數(shù)據(jù)的動態(tài)變化和多樣化的數(shù)據(jù)訪問需求。例如,可以使用動態(tài)數(shù)據(jù)分片技術(shù)來自適應(yīng)數(shù)據(jù)的變化,并根據(jù)數(shù)據(jù)的重要性和訪問頻率進行優(yōu)化。
更智能的故障恢復(fù)機制:未來的無中心架構(gòu)可能會使用更加智能的故障恢復(fù)機制來提高系統(tǒng)的可用性和穩(wěn)定性。例如,可以使用自動化故障檢測和恢復(fù)技術(shù)來快速發(fā)現(xiàn)故障并自動化修復(fù)。
超大規(guī)模數(shù)據(jù)處理:目前Rapids Lizard能夠滿足PB級別海量數(shù)據(jù)的穩(wěn)定存儲和高效分析,未來也會向著超大規(guī)模的平臺集群演進。
云原生應(yīng)用:無中心架構(gòu)具備適應(yīng)云原生應(yīng)用的獨特優(yōu)勢,支持快速部署和擴展應(yīng)用程序,未來Rapids Lizard將同時滿足本地化部署和云原生,以適應(yīng)用戶靈活多變的交付需求。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )