精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來(lái)！

人閱讀
2020-06-04 20:25:17
來(lái)源：西盟科技資訊
相關(guān)關(guān)鍵詞
- +CarbonData
- 華為云

隨著5G、AI、IoT等技術(shù)越來(lái)越普及，企業(yè)數(shù)據(jù)量增大，新的數(shù)據(jù)業(yè)務(wù)層出不窮，企業(yè)對(duì)數(shù)據(jù)分析的靈活性、性能、成本要求越來(lái)越高，基于傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺(tái)已無(wú)法滿足企業(yè)多方面的要求。

近年來(lái)隨著云計(jì)算技術(shù)發(fā)展，越來(lái)越多企業(yè)選擇了以數(shù)據(jù)湖為中心構(gòu)建大數(shù)據(jù)處理平臺(tái)，數(shù)據(jù)湖最明顯的特征就是存儲(chǔ)和計(jì)算分離，一方面可以使成本下降;另一方面，可以獲得更好的系統(tǒng)可擴(kuò)展性。

采用數(shù)據(jù)湖架構(gòu)，隨著企業(yè)業(yè)務(wù)增長(zhǎng)，可以在一份數(shù)據(jù)上不斷增加新業(yè)務(wù)，而不是像傳統(tǒng)數(shù)據(jù)平臺(tái)那樣，每拓展一個(gè)新業(yè)務(wù)就要做一次數(shù)據(jù)拷貝。

每個(gè)硬幣都有兩面，數(shù)據(jù)湖方案除了低成本、易擴(kuò)展的優(yōu)點(diǎn)外，同時(shí)也有一些缺點(diǎn)：

1、無(wú)事務(wù)能力，數(shù)據(jù)入庫(kù)難！

傳統(tǒng)數(shù)據(jù)湖依賴云存儲(chǔ)，但云存儲(chǔ)一般都沒有ACID(Atomicity， Consistency， Isolation， Durability)事務(wù)能力，導(dǎo)致在此之上構(gòu)建的Hive表格、Spark表格等不支持基于事務(wù)的數(shù)據(jù)入庫(kù)，更不用說(shuō)數(shù)據(jù)更新了。

這個(gè)弊端極大制約了數(shù)據(jù)湖的使用場(chǎng)景，企業(yè)無(wú)法將不斷變化的數(shù)據(jù)快速注入到數(shù)據(jù)湖內(nèi)。常常需要在業(yè)務(wù)層做大量預(yù)處理后，才能進(jìn)入數(shù)據(jù)湖做分析，處理時(shí)延往往在一天以上。

2、分析性能依賴于暴力掃描，即費(fèi)資源又太慢！

傳統(tǒng)數(shù)據(jù)湖存儲(chǔ)依賴云存儲(chǔ)，極大降低成本，但做數(shù)據(jù)分析時(shí)屬于暴力掃描方式，完全依靠云存儲(chǔ)自身的吞吐能力，這種方式只適用于ETL、批量計(jì)算等對(duì)時(shí)延不敏感的應(yīng)用，無(wú)法支撐如秒級(jí)數(shù)據(jù)檢索、時(shí)序數(shù)據(jù)分析等低時(shí)延分析場(chǎng)景。

+ CarbonData，讓華為云智能數(shù)據(jù)湖真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座

為了解決這些問(wèn)題，華為云基于云存儲(chǔ)+CarbonData構(gòu)建的新一代數(shù)據(jù)湖，實(shí)現(xiàn)了 “實(shí)時(shí)數(shù)據(jù)接入”、“DB數(shù)據(jù)同步”、“高性能查詢和分析”等能力，填補(bǔ)了業(yè)界能力空白，使云化數(shù)據(jù)湖可以真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來(lái)！

基于CarbonData的華為云數(shù)據(jù)湖方案如上圖描述，Kafka完成數(shù)據(jù)收集，由Flink、Spark Streaming等流計(jì)算引擎完成數(shù)據(jù)清洗、預(yù)處理等業(yè)務(wù)邏輯，將處理后的數(shù)據(jù)注入到CarbonData表格中;

繼而，用戶可使用Spark、Hive、Presto等大數(shù)據(jù)引擎對(duì)CarbonData表格進(jìn)行交互分析、詳單查詢和ETL等業(yè)務(wù);也可以使用TensorFlow、PyTorch等AI引擎進(jìn)行AI模型訓(xùn)練、推理等。

下面進(jìn)一步闡述，加持CarbonData后，華為云智能數(shù)據(jù)湖的三大特點(diǎn)：

1、實(shí)時(shí)數(shù)據(jù)入庫(kù)

CarbonData增加了對(duì) Flink 的支持，50行代碼輕松實(shí)現(xiàn)對(duì)接 Flink 以CarbonData的格式實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)入庫(kù)。同時(shí)，CarbonData支持ACID事務(wù)能力，確保入庫(kù)操作的原子性和一致性。這使得CarbonData成為唯一一款兼具速度、靈活性和支持 ACID 事務(wù)特性的全場(chǎng)景數(shù)據(jù)湖。

2、DB數(shù)據(jù)同步

CarbonData支持Delta增量同步，相比Hive使用的數(shù)據(jù)重寫策略，數(shù)據(jù)同步性能提升10倍?；贑arbonData的數(shù)據(jù)快速同步能力，企業(yè)可以輕松實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)到數(shù)據(jù)湖的數(shù)據(jù)實(shí)時(shí)同步，縮短數(shù)據(jù)入湖可見周期，將數(shù)據(jù)可見時(shí)間從T+1優(yōu)化為T+0，消除數(shù)據(jù)入湖壁壘。

3、高性能查詢和分析

CarbonData支持對(duì)云存儲(chǔ)的數(shù)據(jù)構(gòu)建索引和物化視圖，實(shí)現(xiàn)10倍以上的查詢性能提升。根據(jù)業(yè)務(wù)需求，用戶可選擇多種索引和物化視圖加速能力，包括主索引、二級(jí)索引、時(shí)空索引、多值列索引、時(shí)間序列Rollup、多表Join預(yù)聚合等。

CarbonData在構(gòu)建這些索引的時(shí)候，同樣遵循ACID事務(wù)性，確保索引構(gòu)建過(guò)程中不會(huì)對(duì)業(yè)務(wù)查詢?cè)斐捎绊?。并可以利用云?jì)算的按需擴(kuò)展能力，加速索引和物化視圖的構(gòu)建性能。

基于CarbonData最新版本的異步索引構(gòu)建能力，在數(shù)據(jù)入庫(kù)實(shí)時(shí)性要求較高的業(yè)務(wù)場(chǎng)景，用戶可通過(guò)“先入庫(kù)再建索引”的方式，平衡數(shù)據(jù)入庫(kù)延遲和查詢性能。實(shí)現(xiàn)數(shù)據(jù)入庫(kù)后即可被查詢，并使用周期任務(wù)或等到業(yè)務(wù)閑時(shí)再對(duì)數(shù)據(jù)建立索引，大幅提升查詢性能。

典型場(chǎng)景分析

某互聯(lián)網(wǎng)行業(yè)用戶使用CarbonData構(gòu)建全場(chǎng)景數(shù)據(jù)湖，借助“DB數(shù)據(jù)同步”、“實(shí)時(shí)數(shù)據(jù)入庫(kù)”和“高性能查詢和分析”功能輕松構(gòu)建PB級(jí)別、甚至EB級(jí)別大數(shù)據(jù)處理平臺(tái)。

對(duì)于一個(gè)日活千萬(wàn)級(jí)別的APP應(yīng)用來(lái)說(shuō)，平均每天約產(chǎn)生500億條用戶行為數(shù)據(jù)，一年的數(shù)據(jù)存儲(chǔ)量約10PB。在使用CarbonData之前，該用戶曾做過(guò)如下性能和成本分析：

1、傳統(tǒng)Nosql數(shù)據(jù)庫(kù)雖然具有較好的數(shù)據(jù)索引機(jī)制，但是“太貴”：

因?yàn)橐樵兛?，用戶通常?huì)首先考慮HBase， ElasticSearch等自帶索引的NoSQL數(shù)據(jù)庫(kù)。

以HBase為例，每PB存儲(chǔ)的云硬盤成本為70萬(wàn)/月;單臺(tái)RegionServer可維護(hù)不超過(guò)10TB的數(shù)據(jù)，每PB的數(shù)據(jù)存儲(chǔ)需100臺(tái)計(jì)算節(jié)點(diǎn)來(lái)部署RegionServer，每臺(tái)計(jì)算節(jié)點(diǎn)500元/月，部署的硬件成本為500*100=5萬(wàn)/月，每PB總成本=75萬(wàn)/月。

2、基于云存儲(chǔ)+文件雖然具有較好的成本優(yōu)勢(shì)，但是“太慢”：

使用Parquet， ORC等列存，可以將數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中，成本大大降低，每PB存儲(chǔ)的對(duì)象存儲(chǔ)成本約為8萬(wàn)/月;100臺(tái)計(jì)算節(jié)點(diǎn)假設(shè)每天開機(jī)8小時(shí)，計(jì)算成本5/3=1.67萬(wàn)/月，每PB總成本約9.67萬(wàn)/月，成本大幅下降。

但是由于無(wú)索引，只能通過(guò)暴力掃描的方式進(jìn)行查詢和計(jì)算，在暴力計(jì)算時(shí)系統(tǒng)往往受限于對(duì)象存儲(chǔ)帶寬，假設(shè)對(duì)象存儲(chǔ)帶寬為20GB/s，對(duì)10PB全量數(shù)據(jù)查詢一次通常需要4~5個(gè)小時(shí)(視業(yè)務(wù)查詢條件而定)。

3、云存儲(chǔ)+CarbonData，實(shí)現(xiàn)“又快又便宜”的任性：

CarbonData兼具NoSQL的索引性能優(yōu)勢(shì)，和Parquet、ORC等文件存儲(chǔ)的成本優(yōu)勢(shì)，又快又便宜：

1)利用CarbonData的索引、物化視圖、緩存等查詢優(yōu)化技術(shù)，查詢時(shí)間從4個(gè)小時(shí)下降到30秒內(nèi)，查詢性能提升480倍;

2)支持ACID事務(wù)和DB數(shù)據(jù)同步能力，縮短數(shù)據(jù)入湖可見周期從T+1到T+0;

3)基于存算分離架構(gòu)，使用云存儲(chǔ)+100計(jì)算節(jié)點(diǎn)按需啟停，每PB總成本約9.67萬(wàn)/月，成本降低近10倍。

展望

Apache CarbonData是一個(gè)高性能EB級(jí)別原生Hadoop分析型數(shù)據(jù)倉(cāng)庫(kù)，提供面向?qū)ο蟠鎯?chǔ)上EB級(jí)數(shù)據(jù)的高性能明細(xì)查詢能力、交互式查詢能力，提供流數(shù)據(jù)接入、DB數(shù)據(jù)實(shí)時(shí)同步和更新能力，提供對(duì)主要ETL業(yè)務(wù)的支持和加速，以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI引擎的對(duì)接和優(yōu)化，生態(tài)發(fā)展越來(lái)越完善。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來(lái)！

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部