隨著5G、AI、IoT等技術(shù)越來(lái)越普及,企業(yè)數(shù)據(jù)量增大,新的數(shù)據(jù)業(yè)務(wù)層出不窮,企業(yè)對(duì)數(shù)據(jù)分析的靈活性、性能、成本要求越來(lái)越高,基于傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺(tái)已無(wú)法滿足企業(yè)多方面的要求。
近年來(lái)隨著云計(jì)算技術(shù)發(fā)展,越來(lái)越多企業(yè)選擇了以數(shù)據(jù)湖為中心構(gòu)建大數(shù)據(jù)處理平臺(tái),數(shù)據(jù)湖最明顯的特征就是存儲(chǔ)和計(jì)算分離,一方面可以使成本下降;另一方面,可以獲得更好的系統(tǒng)可擴(kuò)展性。
采用數(shù)據(jù)湖架構(gòu),隨著企業(yè)業(yè)務(wù)增長(zhǎng),可以在一份數(shù)據(jù)上不斷增加新業(yè)務(wù),而不是像傳統(tǒng)數(shù)據(jù)平臺(tái)那樣,每拓展一個(gè)新業(yè)務(wù)就要做一次數(shù)據(jù)拷貝。
每個(gè)硬幣都有兩面,數(shù)據(jù)湖方案除了低成本、易擴(kuò)展的優(yōu)點(diǎn)外,同時(shí)也有一些缺點(diǎn):
1、無(wú)事務(wù)能力,數(shù)據(jù)入庫(kù)難!
傳統(tǒng)數(shù)據(jù)湖依賴云存儲(chǔ),但云存儲(chǔ)一般都沒有ACID(Atomicity, Consistency, Isolation, Durability)事務(wù)能力,導(dǎo)致在此之上構(gòu)建的Hive表格、Spark表格等不支持基于事務(wù)的數(shù)據(jù)入庫(kù),更不用說(shuō)數(shù)據(jù)更新了。
這個(gè)弊端極大制約了數(shù)據(jù)湖的使用場(chǎng)景,企業(yè)無(wú)法將不斷變化的數(shù)據(jù)快速注入到數(shù)據(jù)湖內(nèi)。常常需要在業(yè)務(wù)層做大量預(yù)處理后,才能進(jìn)入數(shù)據(jù)湖做分析,處理時(shí)延往往在一天以上。
2、分析性能依賴于暴力掃描,即費(fèi)資源又太慢!
傳統(tǒng)數(shù)據(jù)湖存儲(chǔ)依賴云存儲(chǔ),極大降低成本,但做數(shù)據(jù)分析時(shí)屬于暴力掃描方式,完全依靠云存儲(chǔ)自身的吞吐能力,這種方式只適用于ETL、批量計(jì)算等對(duì)時(shí)延不敏感的應(yīng)用,無(wú)法支撐如秒級(jí)數(shù)據(jù)檢索、時(shí)序數(shù)據(jù)分析等低時(shí)延分析場(chǎng)景。
+ CarbonData,讓華為云智能數(shù)據(jù)湖真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座
為了解決這些問(wèn)題,華為云基于云存儲(chǔ)+CarbonData構(gòu)建的新一代數(shù)據(jù)湖,實(shí)現(xiàn)了 “實(shí)時(shí)數(shù)據(jù)接入”、“DB數(shù)據(jù)同步”、“高性能查詢和分析”等能力,填補(bǔ)了業(yè)界能力空白,使云化數(shù)據(jù)湖可以真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座。
基于CarbonData的華為云數(shù)據(jù)湖方案如上圖描述,Kafka完成數(shù)據(jù)收集,由Flink、Spark Streaming等流計(jì)算引擎完成數(shù)據(jù)清洗、預(yù)處理等業(yè)務(wù)邏輯,將處理后的數(shù)據(jù)注入到CarbonData表格中;
繼而,用戶可使用Spark、Hive、Presto等大數(shù)據(jù)引擎對(duì)CarbonData表格進(jìn)行交互分析、詳單查詢和ETL等業(yè)務(wù);也可以使用TensorFlow、PyTorch等AI引擎進(jìn)行AI模型訓(xùn)練、推理等。
下面進(jìn)一步闡述,加持CarbonData后,華為云智能數(shù)據(jù)湖的三大特點(diǎn):
1、實(shí)時(shí)數(shù)據(jù)入庫(kù)
CarbonData增加了對(duì) Flink 的支持,50行代碼輕松實(shí)現(xiàn)對(duì)接 Flink 以CarbonData的格式實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)入庫(kù)。同時(shí),CarbonData支持ACID事務(wù)能力,確保入庫(kù)操作的原子性和一致性。這使得CarbonData成為唯一一款兼具速度、靈活性和支持 ACID 事務(wù)特性的全場(chǎng)景數(shù)據(jù)湖。
2、DB數(shù)據(jù)同步
CarbonData支持Delta增量同步,相比Hive使用的數(shù)據(jù)重寫策略,數(shù)據(jù)同步性能提升10倍?;贑arbonData的數(shù)據(jù)快速同步能力,企業(yè)可以輕松實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)到數(shù)據(jù)湖的數(shù)據(jù)實(shí)時(shí)同步,縮短數(shù)據(jù)入湖可見周期,將數(shù)據(jù)可見時(shí)間從T+1優(yōu)化為T+0,消除數(shù)據(jù)入湖壁壘。
3、高性能查詢和分析
CarbonData支持對(duì)云存儲(chǔ)的數(shù)據(jù)構(gòu)建索引和物化視圖,實(shí)現(xiàn)10倍以上的查詢性能提升。根據(jù)業(yè)務(wù)需求,用戶可選擇多種索引和物化視圖加速能力,包括主索引、二級(jí)索引、時(shí)空索引、多值列索引、時(shí)間序列Rollup、多表Join預(yù)聚合等。
CarbonData在構(gòu)建這些索引的時(shí)候,同樣遵循ACID事務(wù)性,確保索引構(gòu)建過(guò)程中不會(huì)對(duì)業(yè)務(wù)查詢?cè)斐捎绊?。并可以利用云?jì)算的按需擴(kuò)展能力,加速索引和物化視圖的構(gòu)建性能。
基于CarbonData最新版本的異步索引構(gòu)建能力,在數(shù)據(jù)入庫(kù)實(shí)時(shí)性要求較高的業(yè)務(wù)場(chǎng)景,用戶可通過(guò)“先入庫(kù)再建索引”的方式,平衡數(shù)據(jù)入庫(kù)延遲和查詢性能。實(shí)現(xiàn)數(shù)據(jù)入庫(kù)后即可被查詢,并使用周期任務(wù)或等到業(yè)務(wù)閑時(shí)再對(duì)數(shù)據(jù)建立索引,大幅提升查詢性能。
典型場(chǎng)景分析
某互聯(lián)網(wǎng)行業(yè)用戶使用CarbonData構(gòu)建全場(chǎng)景數(shù)據(jù)湖,借助“DB數(shù)據(jù)同步”、“實(shí)時(shí)數(shù)據(jù)入庫(kù)”和“高性能查詢和分析”功能輕松構(gòu)建PB級(jí)別、甚至EB級(jí)別大數(shù)據(jù)處理平臺(tái)。
對(duì)于一個(gè)日活千萬(wàn)級(jí)別的APP應(yīng)用來(lái)說(shuō),平均每天約產(chǎn)生500億條用戶行為數(shù)據(jù),一年的數(shù)據(jù)存儲(chǔ)量約10PB。在使用CarbonData之前,該用戶曾做過(guò)如下性能和成本分析:
1、傳統(tǒng)Nosql數(shù)據(jù)庫(kù)雖然具有較好的數(shù)據(jù)索引機(jī)制,但是“太貴”:
因?yàn)橐樵兛?,用戶通常?huì)首先考慮HBase, ElasticSearch等自帶索引的NoSQL數(shù)據(jù)庫(kù)。
以HBase為例,每PB存儲(chǔ)的云硬盤成本為70萬(wàn)/月;單臺(tái)RegionServer可維護(hù)不超過(guò)10TB的數(shù)據(jù), 每PB的數(shù)據(jù)存儲(chǔ)需100臺(tái)計(jì)算節(jié)點(diǎn)來(lái)部署RegionServer,每臺(tái)計(jì)算節(jié)點(diǎn)500元/月,部署的硬件成本為500*100=5萬(wàn)/月,每PB總成本=75萬(wàn)/月。
2、基于云存儲(chǔ)+文件雖然具有較好的成本優(yōu)勢(shì),但是“太慢”:
使用Parquet, ORC等列存,可以將數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中,成本大大降低,每PB存儲(chǔ)的對(duì)象存儲(chǔ)成本約為8萬(wàn)/月;100臺(tái)計(jì)算節(jié)點(diǎn)假設(shè)每天開機(jī)8小時(shí),計(jì)算成本5/3=1.67萬(wàn)/月,每PB總成本約9.67萬(wàn)/月,成本大幅下降。
但是由于無(wú)索引,只能通過(guò)暴力掃描的方式進(jìn)行查詢和計(jì)算,在暴力計(jì)算時(shí)系統(tǒng)往往受限于對(duì)象存儲(chǔ)帶寬,假設(shè)對(duì)象存儲(chǔ)帶寬為20GB/s,對(duì)10PB全量數(shù)據(jù)查詢一次通常需要4~5個(gè)小時(shí)(視業(yè)務(wù)查詢條件而定)。
3、云存儲(chǔ)+CarbonData, 實(shí)現(xiàn)“又快又便宜”的任性:
CarbonData兼具NoSQL的索引性能優(yōu)勢(shì),和Parquet、ORC等文件存儲(chǔ)的成本優(yōu)勢(shì),又快又便宜:
1)利用CarbonData的索引、物化視圖、緩存等查詢優(yōu)化技術(shù),查詢時(shí)間從4個(gè)小時(shí)下降到30秒內(nèi),查詢性能提升480倍;
2)支持ACID事務(wù)和DB數(shù)據(jù)同步能力,縮短數(shù)據(jù)入湖可見周期從T+1到T+0;
3)基于存算分離架構(gòu),使用云存儲(chǔ)+100計(jì)算節(jié)點(diǎn)按需啟停,每PB總成本約9.67萬(wàn)/月,成本降低近10倍。
展望
Apache CarbonData是一個(gè)高性能EB級(jí)別原生Hadoop分析型數(shù)據(jù)倉(cāng)庫(kù),提供面向?qū)ο蟠鎯?chǔ)上EB級(jí)數(shù)據(jù)的高性能明細(xì)查詢能力、交互式查詢能力,提供流數(shù)據(jù)接入、DB數(shù)據(jù)實(shí)時(shí)同步和更新能力,提供對(duì)主要ETL業(yè)務(wù)的支持和加速,以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI引擎的對(duì)接和優(yōu)化,生態(tài)發(fā)展越來(lái)越完善。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )