5月26日,信服云大數(shù)據(jù)研發(fā)技術(shù)專家Kevin 在信服云《Tech Talk · 云技術(shù)有話聊》系列直播課上分享了《基于多場景計算分析的融合數(shù)倉基礎(chǔ)架構(gòu)》,詳細(xì)介紹了信服云數(shù)倉Dipper如何在復(fù)雜場景下提升查詢效率,信服云數(shù)倉Dipper在明細(xì)查詢、聚合查詢等多種查詢場景下的加速技術(shù),以及信服云數(shù)倉Dipper在多種業(yè)務(wù)場景下的開發(fā)經(jīng)驗。以下是他分享的內(nèi)容摘要,想要了解更多可以關(guān)注“深信服科技”公眾號觀看直播回放。
一、數(shù)據(jù)倉庫當(dāng)前面臨的挑戰(zhàn)
數(shù)據(jù)倉庫是用來存放各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)的地方,包括網(wǎng)站的訪問日志、業(yè)務(wù)數(shù)據(jù)等?;谑占蟻淼纳y的海量的數(shù)據(jù),以數(shù)據(jù)集成的方式進(jìn)入到了數(shù)據(jù)倉庫的系統(tǒng),再進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)匯聚、數(shù)據(jù)加工等步驟,進(jìn)而用于進(jìn)行大數(shù)據(jù)分析操作。這些操作都是在數(shù)據(jù)倉庫里面來完成,最后形成集成數(shù)據(jù)集合,用于支撐各個部門的決策過程。
數(shù)據(jù)倉庫是企業(yè)數(shù)字化轉(zhuǎn)型里面不可或缺的一部分,這體現(xiàn)在商業(yè)智能數(shù)據(jù)挖掘、數(shù)據(jù)儀表盤和數(shù)據(jù)探索這些方面。無論是企業(yè)的數(shù)據(jù)分析師,還是企業(yè)的經(jīng)營決策者,都需要用它來發(fā)現(xiàn)商業(yè)中可能忽略的問題,實現(xiàn)決策的科學(xué)制定。
當(dāng)前數(shù)據(jù)倉庫的一些需求,其實基本上處理的數(shù)據(jù)是 PB 級的數(shù)據(jù),不僅要負(fù)責(zé) PB 級的數(shù)據(jù)的存儲,還要負(fù)責(zé) PB 級數(shù)據(jù)的計算。因為這里計算資源和存儲資源比較多,如何通過性價比更高方式來保證數(shù)據(jù)的存儲,保證數(shù)據(jù)的計算能夠是高效的,也是很多企業(yè)關(guān)心的問題。
要支持這種高性能的這樣的查詢,對于用戶來講,數(shù)據(jù)倉庫對外的輸出的窗口提供這樣的功能。所以在高并發(fā)聚合分析、億級別的并發(fā)秒級檢索、高性能的 AD hoc查詢這三方面都要給用戶提供一種高性能的體驗。
二、數(shù)據(jù)倉庫難點與解決方案
總結(jié)起來,用戶的痛點分為三方面:多系統(tǒng)帶來的運(yùn)維復(fù)雜;查詢性能不足;人工建倉成本高。
針對多系統(tǒng)部署、成本高的痛點,信服云提供了一套的一體化智能運(yùn)維系統(tǒng)。在這個系統(tǒng)里有很多的組件,例如分布式計算引擎,統(tǒng)一的元數(shù)據(jù)管理引擎,這些引擎在系統(tǒng)中是統(tǒng)一部署的。
根據(jù)機(jī)器的實際的情況進(jìn)行參數(shù)的調(diào)優(yōu)和配置,實現(xiàn)一鍵安裝。運(yùn)行過程中出現(xiàn)了問題,也可以及時地發(fā)出告警,提醒人員說當(dāng)前系統(tǒng)可能存在問題。
在這里面,如果是說每套系統(tǒng)發(fā)生掛掉的情況,通過高可用機(jī)制也能夠盡快恢復(fù)線上業(yè)務(wù)的生產(chǎn),來降低因為系統(tǒng)故障導(dǎo)致的業(yè)務(wù)中斷。
業(yè)務(wù)系統(tǒng)運(yùn)行在這樣的數(shù)據(jù)倉庫上,就能夠保證用戶的系統(tǒng)是高可用的,實現(xiàn)智能運(yùn)維,來降低運(yùn)維的成本。
針對性能不足的問題,信服云提供了一套化繁為簡的Dipper數(shù)據(jù)分析引擎,分成統(tǒng)一接口層和融合引擎層??梢詫⒂脩舻牟樵兎诸?,在系統(tǒng)中分別針對各類查詢進(jìn)行優(yōu)化,以獲得更優(yōu)的查詢性能。
當(dāng)查詢涉及到大批量數(shù)據(jù)計算或者大批量數(shù)據(jù)分析時,可以提供Hive 或者是 Spark 這樣的分析引擎,限制內(nèi)存和計算資源的使用情況,保證計算過程的穩(wěn)定執(zhí)行。
當(dāng)涉及聚合查詢或者明細(xì)查詢時,提供提供索引機(jī)制,在減小計算數(shù)據(jù)量的情況下,采用類似于Presto這種引擎,實現(xiàn)低延遲快速的計算。
如果秒級甚至說毫幾百毫秒依舊不能滿足需求,信服云會給用戶開一個高速緩存,并采用內(nèi)存計算引擎,為用戶提供更高并發(fā)、更低延遲的查詢體驗。
融合數(shù)倉的背后有三種關(guān)鍵技術(shù)。第一,提供一套 ANSI SQL 接口,無需對接多種分析引擎。盡管下面用到了三個不同的組件,但是對于用戶來講,只要寫一套 ANSI SQL 的語法,就能夠獲得特定的轉(zhuǎn)換,無需用戶考慮組件的切換。
第二,提供一套智能路由引擎,對于用戶來說,需要人工區(qū)分查詢的類型,增加了工作量。而信服云提供這套智能路由,它可以通過這種 SQL 語的分析來判斷是大批量數(shù)據(jù)的查詢、還是高性能的檢索,這個時候可以自動地選擇合適的引擎,來達(dá)到更優(yōu)的性能情況。
第三,所有的索引不需要用戶來指明說要構(gòu)建什么索引,在這過程中可以通過 SQL 語句的分析來自適應(yīng)地為用戶建立各種各樣的索引。
三、數(shù)據(jù)倉庫技術(shù)實踐成果
以電子制造業(yè)場景為例,使用了信服云的數(shù)據(jù)倉庫,1萬塊圓晶芯片能夠達(dá)到秒級響應(yīng),相較于原來的幾十分鐘的分析速度,提升了用戶的檢驗效率。
在醫(yī)療場景下,對于同一套數(shù)據(jù)存儲的明細(xì)查詢性能,清理緩存之前,可以達(dá)到并發(fā)500,即使是清理緩存以后,也能達(dá)到 200 的并發(fā),超過用戶給百級并發(fā)秒級響應(yīng)的預(yù)期。
以IT部門構(gòu)建的數(shù)據(jù)中臺TiDB 查詢引擎場景為例,采用信服云數(shù)據(jù)倉庫后,可以實現(xiàn)大部分的語句的智能聚合索引,從而完成這種自動化建模,這對他們而言起到了加速效果,獲得了良好的查詢體驗。
還有能源、水務(wù)、教育、日志分析等場景,信服云的數(shù)倉架構(gòu)都提供了很好的查詢體驗,高性能的數(shù)倉組件大幅度降低了查詢的時延,能夠在千萬級事實數(shù)據(jù)下達(dá)到秒級響應(yīng)的效果。
以上就是本次直播的主要內(nèi)容。對于技術(shù)內(nèi)容感興趣的IT朋友可以關(guān)注“深信服科技”公眾號回顧本期直播,了解更多技術(shù)內(nèi)容。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )