數(shù)據(jù)驅(qū)動(dòng)著現(xiàn)代商業(yè)的發(fā)展。今天,無(wú)論在制造、零售、物流,還是在互聯(lián)網(wǎng)、金融等行業(yè),數(shù)據(jù)都變得比以往任何時(shí)候更為重要。
海量且多樣的數(shù)據(jù)浪潮對(duì)數(shù)據(jù)處理和分析提出了更高的要求,也使得數(shù)據(jù)倉(cāng)庫(kù)走向了多元化的發(fā)展之路,傳統(tǒng)數(shù)倉(cāng)、數(shù)據(jù)集市、實(shí)時(shí)數(shù)倉(cāng)等相繼誕生。此外,隨著云計(jì)算的興起和滲透,云數(shù)倉(cāng)成為了數(shù)倉(cāng)技術(shù)演進(jìn)的新階段,并且逐漸成為了眾多企業(yè)的共同選擇。
與時(shí)俱進(jìn)的“數(shù)據(jù)倉(cāng)庫(kù)”
“數(shù)據(jù)倉(cāng)庫(kù)”的概念并非近些年才出現(xiàn),關(guān)于它的起源,眾說(shuō)紛紜,有一種說(shuō)法指出“數(shù)據(jù)倉(cāng)庫(kù)”的概念最早可以追溯到上世紀(jì) 60 年代,當(dāng)時(shí)的數(shù)據(jù)主要是手工處理的紙質(zhì)文檔和統(tǒng)計(jì)報(bào)表;80 年代中后期,隨著計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)開始逐漸成為企業(yè)級(jí)分析的重要工具;直到 90 年代 Bill Inmon 推出《建立數(shù)據(jù)倉(cāng)庫(kù)》,正式定義了數(shù)據(jù)倉(cāng)庫(kù)的概念——數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合;進(jìn)入21世紀(jì)后,數(shù)據(jù)倉(cāng)庫(kù)開始與大數(shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、云計(jì)算等技術(shù)的相結(jié)合,走上了集成發(fā)展之路。
隨著技術(shù)的不斷發(fā)展和產(chǎn)業(yè)實(shí)踐的深入,數(shù)據(jù)倉(cāng)庫(kù)逐漸成為了企業(yè)信息管理中不可或缺的部分。在實(shí)際應(yīng)用中,數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,如客戶關(guān)系管理、商業(yè)智能、金融風(fēng)險(xiǎn)評(píng)估等。例如,在客戶關(guān)系管理方面,數(shù)據(jù)倉(cāng)庫(kù)可以幫助企業(yè)更好地了解其客戶,從而提高客戶滿意度和忠誠(chéng)度。在商業(yè)智能方面,數(shù)據(jù)倉(cāng)庫(kù)可以幫助企業(yè)快速地分析大量的數(shù)據(jù),從而為企業(yè)決策提供支持;在金融風(fēng)險(xiǎn)評(píng)估方面,數(shù)據(jù)倉(cāng)庫(kù)可以幫助銀行和金融機(jī)構(gòu)更好地評(píng)估風(fēng)險(xiǎn)和制定策略等等。
一些大型科技公司,基于自身業(yè)務(wù)訴求,也走上了數(shù)據(jù)倉(cāng)庫(kù)的研發(fā)之路。比如華為云早在 2011 年就開始做數(shù)據(jù)倉(cāng)庫(kù)——GaussDB(DWS) 的預(yù)研,在經(jīng)受了海量自有業(yè)務(wù)數(shù)據(jù)的考驗(yàn)后,于 2015 年推向市場(chǎng),面向金融、政府傳統(tǒng)一體機(jī)等企業(yè)級(jí)核心數(shù)倉(cāng)場(chǎng)景提供服務(wù),2017 年 GaussDB(DWS) 上云,進(jìn)一步提升了服務(wù)能力與服務(wù)范疇。
據(jù)華為云數(shù)倉(cāng) GaussDB(DWS)資深產(chǎn)品專家黃海燕介紹,GaussDB(DWS)是華為云數(shù)據(jù)生產(chǎn)線上的一個(gè)明星產(chǎn)品,是支持實(shí)時(shí)入庫(kù)、實(shí)時(shí)分析、批量運(yùn)算、交互式查詢的一站式分析平臺(tái),具備傳統(tǒng)數(shù)倉(cāng)的超大規(guī)模、高性能、高并發(fā)等優(yōu)勢(shì),同時(shí)也具備云原生數(shù)倉(cāng)的存算分離、彈性伸縮、Serverless、湖倉(cāng)一體和數(shù)智融合等能力。
歷時(shí) 12 年,從內(nèi)到外、從本地部署到云端服務(wù),GaussDB(DWS) 逐漸探索出了適應(yīng)云時(shí)代多場(chǎng)景需求的云數(shù)倉(cāng)之路。
GaussDB(DWS)的 Serverless 之路
2017 年,華為云開始加速拓展業(yè)務(wù),推出了更多云計(jì)算服務(wù),GaussDB(DWS) 也全面上云。上云之后帶來(lái)的最直接的價(jià)值在于可以減少客戶企業(yè)的硬件投資和運(yùn)維成本,提高整體的運(yùn)營(yíng)效益。但是由于企業(yè)的業(yè)務(wù)規(guī)模不同,負(fù)載差異非常大。黃海燕表示,小一點(diǎn)的可能只有幾十 GB 的數(shù)據(jù)集,大的則有數(shù)百 TB 甚至更多的數(shù)據(jù)集。業(yè)務(wù)規(guī)模的差異對(duì)數(shù)倉(cāng)服務(wù)的彈性也提出了更高的要求。
針對(duì)這個(gè)問題,華為云 GaussDB(DWS) 在一開始就將數(shù)倉(cāng)服務(wù)傳統(tǒng)的一體機(jī)模式轉(zhuǎn)換成了彈性計(jì)算服務(wù) ECS+彈性存儲(chǔ)服務(wù) EVS 上的存算分離模式,實(shí)現(xiàn)了計(jì)算存儲(chǔ)獨(dú)立的擴(kuò)容和擴(kuò)展,能夠?qū)崿F(xiàn)計(jì)算升降配、存儲(chǔ)彈性擴(kuò)容,同時(shí)也支持在數(shù)據(jù)擴(kuò)容之間的數(shù)據(jù)重分布,且不影響業(yè)務(wù)的中斷。
隨著業(yè)務(wù)場(chǎng)景的不斷深入, ECS+EVS 彈性擴(kuò)展的方式在面對(duì)一些數(shù)據(jù)量大但計(jì)算要求不高的場(chǎng)景,比如車聯(lián)網(wǎng)、互聯(lián)網(wǎng)日志、企業(yè)核心數(shù)倉(cāng)的長(zhǎng)周期歷史數(shù)據(jù)時(shí),依然存在掣肘。
對(duì)此, GaussDB(DWS) 團(tuán)隊(duì)在 ECS+EVS 的基礎(chǔ)上又做了一層對(duì)象存儲(chǔ) OBS 的冷數(shù)據(jù)管理,將車聯(lián)網(wǎng)、長(zhǎng)周期歷史數(shù)據(jù)等放到 OBS 上,在不擴(kuò)展計(jì)算的情況下,通過這種方式實(shí)現(xiàn)冷熱數(shù)據(jù)的管理,進(jìn)而達(dá)到計(jì)算和存儲(chǔ)的平衡。最終集成為 ECS+EVS+OBS 冷熱數(shù)據(jù)管理的方式,GaussDB(DWS) 基于本地盤進(jìn)行性能加速,將 OBS 作為冷數(shù)據(jù)區(qū),數(shù)據(jù)存儲(chǔ)異構(gòu)擴(kuò)展至 OBS,利用分層存儲(chǔ)的方式,實(shí)現(xiàn)數(shù)據(jù)按需選擇存儲(chǔ)和計(jì)算引擎、冷熱數(shù)據(jù)遷移動(dòng)態(tài)切換等,進(jìn)而在不影響數(shù)倉(cāng)體驗(yàn)的前提下,達(dá)到成本最優(yōu)。
“后來(lái)我們發(fā)現(xiàn) ECS+EVS+OBS 冷熱數(shù)據(jù)管理的方式依然有覆蓋不到的場(chǎng)景,比如說(shuō)有一些場(chǎng)景它需要在跑批量的時(shí)候同時(shí)能夠跑并發(fā)的查詢,還希望一份數(shù)據(jù)實(shí)現(xiàn)多樣化的分析和存儲(chǔ)。因?yàn)橛幸徊糠譄釘?shù)據(jù)在 EVS 上,很多時(shí)候沒有辦法高效地?cái)U(kuò)展分析,所以后面我們把所有的數(shù)據(jù)都放在 OBS 上,原來(lái)的 EVS 作為數(shù)據(jù)的緩存,OBS 數(shù)據(jù)可以供多個(gè)集群、數(shù)據(jù)湖或者是 AI 去分析,再通過原先的 EVS 轉(zhuǎn)換成一個(gè)角色,做數(shù)據(jù)分析加速??梢岳斫獬晌覀兺瑫r(shí)支持了三種模式,這三種模式不是相互替代的關(guān)系,而是各有其應(yīng)用的場(chǎng)景和特點(diǎn)。”黃海燕提到。
基于上述三種 Serverless 模式, GaussDB(DWS)成功為 1700+ 客戶提供了不同業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。黃海燕表示:“現(xiàn)在云上有很多彈性的場(chǎng)景,比如說(shuō)互聯(lián)網(wǎng),在我們歸納來(lái)說(shuō)我們認(rèn)為有兩大類的彈性場(chǎng)景”。
首先是長(zhǎng)周期的彈性場(chǎng)景,主要有幾種類型:第一種是在固定的時(shí)間點(diǎn)上有一個(gè)潮汐波動(dòng),比如“雙十一”、“618”這類促銷節(jié)點(diǎn);第二種是隨著企業(yè)規(guī)模的擴(kuò)大,用戶量、數(shù)據(jù)量、計(jì)算量也會(huì)遞增;第三種是業(yè)務(wù)具備明顯的長(zhǎng)周期時(shí)間特征,比如銀行在月末、季末、年末有結(jié)算的需求,計(jì)算量會(huì)比平時(shí)要大,游戲行業(yè)在周末時(shí)業(yè)務(wù)量會(huì)比平時(shí)更大。
其次是短周期的,即短期內(nèi)有多樣化的訴求。比如銀行 00:00-8:00 是批量的運(yùn)行高峰,8:00-18:00 在批量運(yùn)行的同時(shí)會(huì)有一些對(duì)報(bào)表、經(jīng)營(yíng)數(shù)據(jù)的交互式查詢,18:00 后是業(yè)務(wù)的低峰期,整體呈現(xiàn)一個(gè)潮汐波動(dòng)。
Serverless 的極致彈性擴(kuò)縮容,很好地滿足了長(zhǎng)、短周期彈性場(chǎng)景下的業(yè)務(wù)需求,但是存算分離的架構(gòu)也可能會(huì)帶來(lái)網(wǎng)絡(luò)開銷變大、數(shù)據(jù)處理效率變低、性能下降等問題,對(duì)此 GaussDB(DWS) 團(tuán)隊(duì)也做出了較多的探索。
首先,在 ECS+EVS+OBS 的模式下,數(shù)據(jù)統(tǒng)一存放在 OBS 上,EVS 充當(dāng)緩存(磁盤緩存+內(nèi)存緩存)的角色,由于磁盤緩存相對(duì)而言成本較低,且大小可控,所以 GaussDB(DWS) 做了一個(gè)大比例的磁盤緩存,用戶可以根據(jù)對(duì)性能或者成本的要求調(diào)整比例,理論上如果要追求極致性能,可以不斷調(diào)大磁盤緩存,直到滿足業(yè)務(wù)需求。
其次是計(jì)算下推,把查詢的邏輯直接下推到 OBS,用戶如果要從 OBS 上查數(shù)據(jù),直接從源端進(jìn)行數(shù)據(jù)過濾,從而減少網(wǎng)絡(luò)傳輸對(duì)內(nèi)存的占用,帶來(lái)性能的提升。
最后是 I/O 管控,GaussDB(DWS) 采用多個(gè) I/O 調(diào)度的代理和線程,直接從 OBS 上 Road 數(shù),充分把 OBS 的帶寬利用起來(lái),避免負(fù)載低時(shí) OBS 用不上,負(fù)載高時(shí)互相爭(zhēng)搶的問題,進(jìn)而實(shí)現(xiàn)性能的最大化。
除了在 Serverless 方向的探索外,GaussDB(DWS) 在湖倉(cāng)一體與數(shù)智融合上同樣取得了一些突破。
“湖倉(cāng)一體+數(shù)智融合”的未來(lái)暢想
對(duì)于“湖倉(cāng)一體”的探索,華為云做的比較早,只不過當(dāng)時(shí)主要是通過外表技術(shù)實(shí)現(xiàn)數(shù)據(jù)共享,比如對(duì)于 Spark 或 Hive 的表,在數(shù)倉(cāng)里建一張外表和它對(duì)應(yīng),從而查詢 Spark 和 Hive 里的數(shù)據(jù)。但是這種方式隨著數(shù)據(jù)規(guī)模的增加,維護(hù)成本也會(huì)倍增。
外表技術(shù)本質(zhì)上只能訪問數(shù)據(jù),并不知道元數(shù)據(jù)長(zhǎng)什么樣,如果元數(shù)據(jù)內(nèi)容統(tǒng)一的話,對(duì)用戶來(lái)講就不需要建這個(gè)外表。基于這個(gè)思路,GaussDB(DWS) 引入了 External schema 的概念,通過創(chuàng)建一個(gè) External schema,然后以 schema.table 的方式去訪問 Hive 和 Spark 的元數(shù)據(jù),和正常 SQL 一致,還可以和 GaussDB(DWS) 的內(nèi)表做關(guān)聯(lián)分析,從而使得 GaussDB(DWS) 的優(yōu)化器能力和執(zhí)行引擎能力更強(qiáng)。
“未來(lái)華為云這邊,整個(gè) EI 平臺(tái)會(huì)建立一個(gè) LakeFormation 的統(tǒng)一存儲(chǔ)管理的組件服務(wù),它會(huì)統(tǒng)一管起來(lái)所有的數(shù)倉(cāng)和數(shù)據(jù)湖里面的各種組件的元數(shù)據(jù),真正實(shí)現(xiàn)元數(shù)據(jù)意義上的共享,元數(shù)據(jù)的共享是比數(shù)據(jù)共享難度更高,或者說(shuō)是真正有更大價(jià)值的東西。”華為云數(shù)倉(cāng)GaussDB(DWS) 技術(shù)專家齊天表示。
此外,為了解決多種數(shù)據(jù)庫(kù)插件或引擎的調(diào)度問題,GaussDB(DWS) 還提供了一個(gè)叫做 External Connection 的能力,可以直接調(diào)用外部的計(jì)算引擎,用于計(jì)算共享數(shù)據(jù)或者是它們的自有數(shù)據(jù),從而用一個(gè)或者一套引擎實(shí)現(xiàn)計(jì)算的統(tǒng)一。數(shù)據(jù)共享、元數(shù)據(jù)共享以及計(jì)算統(tǒng)一,是 GaussDB(DWS) 數(shù)倉(cāng)一體的三大技術(shù)特征,并由此打破數(shù)據(jù)孤島效應(yīng),解決企業(yè)的 IT 資源分散、數(shù)據(jù)不通、應(yīng)用孤立等問題。
在實(shí)現(xiàn)多平臺(tái)的數(shù)據(jù)拉通之后,面向未來(lái),華為云數(shù)倉(cāng)又提出了“數(shù)智融合”的概念。據(jù)了解,數(shù)智融合本質(zhì)上是把數(shù)據(jù)和 AI 這兩條原本完全割裂的生產(chǎn)線融合到一起,從而實(shí)現(xiàn) 1+1>2 的效能。
當(dāng)前 GaussDB(DWS) 對(duì)數(shù)智融合的探索主要在兩大場(chǎng)景:一是對(duì)于批量數(shù)據(jù),GaussDB(DWS) 可以將它們存儲(chǔ)在 OBS 上,通過 OBS 實(shí)現(xiàn)和 AI 之間的數(shù)據(jù)共享,從而在不影響數(shù)倉(cāng)體驗(yàn)的前提下,融入 AI 的自動(dòng)化批量數(shù)據(jù)處理的能力;二是即席查詢場(chǎng)景,GaussDB(DWS) 針對(duì)數(shù)據(jù)訪問的插件做了優(yōu)化,進(jìn)而讓 AI 生產(chǎn)線能夠更好、更快速地從中獲取數(shù)據(jù)等。
縱觀數(shù)據(jù)倉(cāng)庫(kù)的演進(jìn)之路,不難看出,從誕生的那一刻起,它就不斷在與新技術(shù)、新場(chǎng)景相融合,并獲得生機(jī),從而持續(xù)釋放數(shù)據(jù)的價(jià)值,推動(dòng)產(chǎn)業(yè)發(fā)展。GaussDB(DWS) 的全面 Serverless 化、湖倉(cāng)一體和數(shù)智融合等特征,是華為云對(duì)于新時(shí)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)演進(jìn)方向的重要判斷,同樣也是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)順應(yīng)時(shí)代、發(fā)展迭代的結(jié)果。隨著 AI 新時(shí)代的到來(lái),數(shù)智融合之后的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)又將會(huì)迸發(fā)出怎樣的力量,值得期待。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )