近年來,新一代硬件產(chǎn)品不斷蓬勃發(fā)展,如多核CPU、GPU、FPGA,以及XPU,如TPU(Tensor Processing Unit,張量處理單元)等。以TPU為例,它可以在硬件層面上處理人工智能和機器學(xué)習(xí)經(jīng)常涉及的張量數(shù)據(jù)結(jié)構(gòu)和張量相關(guān)的計算,這大大提高了數(shù)據(jù)處理和計算的效率。
此外,新一代硬件的革新也在推動數(shù)據(jù)庫系統(tǒng)和架構(gòu)發(fā)生變化,數(shù)據(jù)庫系統(tǒng)作為硬件和企業(yè)需求之間的紐帶,需要通過巧妙精細的架構(gòu)把硬件的能力和特性充分發(fā)揮出來,更好地滿足企業(yè)存儲和分析數(shù)據(jù)的需求。
因此,在新一代硬件的基礎(chǔ)上,柏睿數(shù)據(jù)從數(shù)據(jù)庫系統(tǒng)層面優(yōu)化,囊括新一代計算平臺和引擎,如內(nèi)存計算、分布式計算、人工智能和機器學(xué)習(xí)計算、流計算等,構(gòu)建業(yè)界領(lǐng)先的數(shù)據(jù)智能分析處理平臺——RapidsDB,以完全自研的分布式全內(nèi)存數(shù)據(jù)庫、實時流數(shù)據(jù)庫、數(shù)據(jù)庫人工智能、跨源異構(gòu)查詢連接器、數(shù)據(jù)庫安全&加速卡等為核心,針對海量、高吞吐、高并發(fā)、多源異構(gòu)數(shù)據(jù)進行實時分析處理,充分利用和發(fā)揮新一代硬件的性能,落地數(shù)據(jù)治理、數(shù)據(jù)模型分析、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)追溯等場景應(yīng)用,攜手政府部門和千行百業(yè)的企業(yè)開展數(shù)智化轉(zhuǎn)型。
柏睿數(shù)據(jù)是如何將內(nèi)存計算和分布式計算珠聯(lián)璧合,構(gòu)建出一個更快、更簡單、性價比更高的數(shù)據(jù)智能分析處理平臺?柏睿數(shù)據(jù)聯(lián)合創(chuàng)始人、全球副總裁、首席技術(shù)官馬珺表示,柏睿數(shù)據(jù)專家團隊擁有國際領(lǐng)先的智能數(shù)據(jù)算力技術(shù),完成了從解析層、優(yōu)化層、執(zhí)行層到存儲層等全面自主可控的數(shù)據(jù)庫產(chǎn)品體系。柏睿數(shù)據(jù)完全自主研發(fā)的數(shù)據(jù)智能分析處理平臺RapidsDB,從內(nèi)存計算出發(fā),革新存儲介質(zhì);通過分布式計算,對架構(gòu)進行橫向擴展,為數(shù)據(jù)平臺帶來數(shù)據(jù)存儲與數(shù)據(jù)處理方面的革新。
內(nèi)存VS磁盤,從儲存到計算、實時分析的巔峰對決
柏睿數(shù)據(jù)RapidsDB是基于分布式架構(gòu)的內(nèi)存數(shù)據(jù)庫。相較于傳統(tǒng)數(shù)據(jù)庫用磁盤存儲數(shù)據(jù),內(nèi)存數(shù)據(jù)庫直接在內(nèi)存上進行數(shù)據(jù)存儲和計算。
一、內(nèi)存數(shù)據(jù)庫避開了數(shù)據(jù)訪問時磁盤的I/O瓶頸,存取速度更快。將內(nèi)存與磁盤的訪問速度對比可知,內(nèi)存訪問速度是納秒級,而磁盤訪問速度是毫秒級,數(shù)據(jù)處理速度差異高達百萬倍。
二、內(nèi)存數(shù)據(jù)庫能夠用壓縮和優(yōu)化的格式來存儲數(shù)據(jù),從而更好地發(fā)揮CPU、GPU等現(xiàn)代硬件,而傳統(tǒng)的磁盤數(shù)據(jù)存儲則無法實現(xiàn)。
三、內(nèi)存數(shù)據(jù)庫中從內(nèi)存訪問數(shù)據(jù)所使用的內(nèi)存更少。這是因為從磁盤上讀取數(shù)據(jù)時會涉及諸多復(fù)雜操作和過程,而從內(nèi)存訪問數(shù)據(jù)的過程指令集較少,所使用的內(nèi)存也較少。
四、除了性能優(yōu)勢外,內(nèi)存數(shù)據(jù)庫還在一些有趣的領(lǐng)域具有磁盤存儲和索引難以實現(xiàn)的優(yōu)勢。例如,列式存儲和行式存儲,內(nèi)存數(shù)據(jù)庫能夠很容易地在兩者之間靈活切換,且可以很容易地實現(xiàn)分層數(shù)據(jù)模型,甚至矩陣張量數(shù)據(jù)模型。而對于基于磁盤的存儲來說,實現(xiàn)這樣復(fù)雜的模型是難以想象的。
正因如此,柏睿數(shù)據(jù)RapidsDB選擇基于內(nèi)存存儲架構(gòu)進行設(shè)計和優(yōu)化,具有無磁盤IO、高可擴展、高吞吐、高并發(fā)、低時延、節(jié)省內(nèi)存等特性,比傳統(tǒng)數(shù)據(jù)庫性能提高近百倍,分布式架構(gòu)支持按需動態(tài)在線擴展,支持日增20TB數(shù)據(jù)量實時采集與分析,滿足100TB全內(nèi)存數(shù)據(jù)量分析500/秒并發(fā),TB級數(shù)據(jù)毫秒級響,且數(shù)據(jù)與內(nèi)存空間的占用比例少于1:2,相較于傳統(tǒng)數(shù)據(jù)庫節(jié)省內(nèi)存采購成本60%以上,充分滿足企業(yè)對海量高并發(fā)大數(shù)據(jù)進行快速、精準智能分析和決策支持的需求。
相較于基于磁盤架構(gòu)的傳統(tǒng)數(shù)據(jù)庫,RapidsDB在內(nèi)存優(yōu)化方面有四大顯著特性:一、RapidsDB是一個分布式橫向擴展系統(tǒng),可以在普通硬件上擴展到數(shù)千臺機器;二、沒有緩沖池,不易造成資源爭用;三、無鎖數(shù)據(jù)結(jié)構(gòu),使用內(nèi)存優(yōu)化的無鎖跳過列表作為其索引,允許高吞吐量的高度并發(fā)讀寫,且讀取永遠不會被阻止;四、代碼生成,無鎖的數(shù)據(jù)結(jié)構(gòu)很快導(dǎo)致動態(tài)SQL解釋成為限制查詢執(zhí)行的瓶頸, RapidsDB可將SQL向下編譯為本機代碼,以獲得最高性能。
此外,RapidsDB雖然使用內(nèi)存作為數(shù)據(jù)的主要存儲模塊,但會通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤,這些特性可以從同步持久性(每個事務(wù)在完成之前都記錄在磁盤上)一直調(diào)整到純內(nèi)存持久性(最大持續(xù)吞吐量)。同時,RapidsDB提供選項來控制性能和持久性之間的權(quán)衡,在其最持久的狀態(tài)下,RapidsDB不會丟失任何一個已確認的事務(wù)。
重塑JOIN,實現(xiàn)更強大的分布式數(shù)據(jù)庫
現(xiàn)代社會日新月異,萬事萬物數(shù)據(jù)化生成海量大數(shù)據(jù),并在多維時空高速傳播。為高效存儲、處理、利用好海量大數(shù)據(jù),分布式計算逐漸成為眾多大數(shù)據(jù)平臺采用的計算方式。原因在于,分布式數(shù)據(jù)庫解決了傳統(tǒng)集中式單機數(shù)據(jù)庫面臨的存儲、處理等性能瓶頸。首先,分布式數(shù)據(jù)庫能夠簡便的實現(xiàn)橫向擴展集群,即通過增加更多的節(jié)點綜合提升數(shù)據(jù)處理能力;其次,它能實現(xiàn)成本優(yōu)化,部署的節(jié)點可以根據(jù)應(yīng)用場景需求進行靈活設(shè)計;再次,具備高容錯率,保證不會因為單點故障而影響整體的可用性。
但是,由于現(xiàn)實世界中數(shù)據(jù)處理繁雜多樣,分布式數(shù)據(jù)庫不能只是簡單劃分并分配計算任務(wù)給每個節(jié)點;尤其是作為數(shù)據(jù)庫中最基本、最廣泛使用的算子之一的JOIN(表連接),在分布式計算中實現(xiàn)系統(tǒng)節(jié)點間的數(shù)據(jù)交互,而隨著分布式集群規(guī)模增大,網(wǎng)絡(luò)數(shù)據(jù)傳輸量大增,節(jié)點之間的數(shù)據(jù)交互效率降低,從而導(dǎo)致分布式數(shù)據(jù)庫擴容帶來的性價比愈發(fā)降低,此時分布式數(shù)據(jù)庫往往需要重新設(shè)計JOIN,以實現(xiàn)更優(yōu)性能,降低部署成本。
面對這一問題,柏睿數(shù)據(jù)RapidsDB基于BLOOM JOIN(布隆連接)和BLOOM FILTER(布隆過濾器)提出了解決方案。BLOOM JOIN通過在節(jié)點集群中連接BLOOM FILTER,能夠完成數(shù)據(jù)篩選、處理、連接工作;借助BLOOM JOIN,分布式數(shù)據(jù)庫能夠排除不使用、不必要的大量數(shù)據(jù),保留具有查詢意義的數(shù)據(jù),以達到高效數(shù)據(jù)交互的目的。
由BLOOM JOIN連接的BLOOM FILTER也被稱為概率數(shù)據(jù)結(jié)構(gòu),它能夠?qū)⒋笮蛿?shù)據(jù)壓縮進一個非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),例如將原本幾百個二進制位數(shù)據(jù),變成只有一個或幾個二進制位數(shù)據(jù)。因此,BLOOM FILTER比其他數(shù)據(jù)結(jié)構(gòu)更節(jié)省空間,盡管它存在一定的誤判,但這并不影響其性能優(yōu)化目標的實現(xiàn)。
事實上,RapidsDB很早就已經(jīng)開始部署B(yǎng)LOOM JOIN,然而當前許多數(shù)據(jù)庫系統(tǒng)都還沒有部署;即使已經(jīng)部署了BLOOM JOIN的數(shù)據(jù)庫,其使用方式也比較復(fù)雜,會對工作效率造成一定影響。不僅如此,柏睿數(shù)據(jù)的數(shù)據(jù)庫產(chǎn)品還會智能地使用BLOOM JOIN,即數(shù)據(jù)庫系統(tǒng)會動態(tài)探測和優(yōu)化連接,根據(jù)不同的數(shù)據(jù)需求,自主選擇BLOCK JOIN或 HASH JOIN,這也是RapidsDB的智能之處。
知之愈明,則行之愈篤。柏睿數(shù)據(jù)專家團隊厚植數(shù)據(jù)庫“卡脖子”技術(shù),以“做中國的國際智能數(shù)據(jù)算力公司”為己任,堅持自主創(chuàng)新,以“DATA+AI”技術(shù)為核心,致力于打造更快、更簡單、更低成本的領(lǐng)先數(shù)據(jù)智能分析處理平臺,助力政企全面釋放數(shù)據(jù)生產(chǎn)力,在數(shù)字化轉(zhuǎn)型的道路上行穩(wěn)致遠,加快數(shù)字經(jīng)濟時代的到來。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )