原標(biāo)題:TiDB、OceanBase都在談的HTAP,為何如此燚?
過去一個(gè)月里,堪稱國產(chǎn)數(shù)據(jù)庫又一高光時(shí)刻。
這邊廂PingCAP剛剛發(fā)布面向企業(yè)級(jí)核心場景、具備完整 HTAP 能力的分布式數(shù)據(jù)庫TiDB 5.0 版本;那邊廂OceanBase也緊跟著推出3.0版本,主攻方向亦是HTAP分布式數(shù)據(jù)庫,在GitHub Oceanbase標(biāo)注自己為“ The leading Scalable HTAP Database” , 并且又玩了一把TPC-H打榜第一的套路(后續(xù):其成績很快被超過)。
可能有人會(huì)質(zhì)疑TPC-C和TPC-H的測(cè)試價(jià)值,畢竟這是兩個(gè)歷史悠久的測(cè)試標(biāo)準(zhǔn),參考價(jià)值成疑。OceanBase如果能在TPC-DS上取得好成績會(huì)更有說服力。不過OceanBase自帶阿里&螞蟻光環(huán),屬于招黑體質(zhì),一舉一動(dòng)都容易引來爭議,但敢于在國際舞臺(tái)亮劍,何嘗不是國產(chǎn)數(shù)據(jù)庫的榮耀,所以也無須過于苛刻。
閑言少敘,PingCAP和OceanBase把HTAP這個(gè)詞徹底帶火了。5月28日宣布開源計(jì)劃的阿里云PolarDB也談及HTAP,連Oracle上周都發(fā)了一篇HTAP的文章。PingCAP近年來一直都是HTAP信徒,大力宣傳無可厚非;而OceanBase從傳統(tǒng)意義上講,大家普遍認(rèn)為它聚焦在OLTP數(shù)據(jù)庫領(lǐng)域,為何這次也大張旗鼓的喊出HTAP口號(hào)?
個(gè)中玄機(jī),還得從HTAP的歷史說起。
HTAP:魚和熊掌可兼得
HTAP(Hybrid Transaction and Analytical Processing,混合事務(wù)和分析處理)就是能夠?qū)⒃诰€事務(wù)處理(On-Line Transactional Processing,簡稱OLTP) 和在線數(shù)據(jù)分析 (On-Line Analytical Processing,簡稱OLAP) 請(qǐng)求在同一個(gè)數(shù)據(jù)庫系統(tǒng)中完成。
正所謂天下大勢(shì),分久必合合久必分。此話放在數(shù)據(jù)庫領(lǐng)域一樣適用。HTAP的確不是一個(gè)很新的概念,縱觀數(shù)據(jù)庫五十余年的發(fā)展歷程,OLTP和OLAP兩種需求在其中經(jīng)歷了漫長的融合-分離-再融合的過程。
2005年,Gartner正式提出了HTAP這一概念,并且迅速引起了一些企業(yè)的關(guān)注,被視為是未來數(shù)據(jù)發(fā)展的重要趨勢(shì)之一。轉(zhuǎn)眼到了2014年,Gartner又對(duì)HTAP數(shù)據(jù)庫給出了明確的定義:即需要同時(shí)支持OLTP和OLAP場景,基于創(chuàng)新的計(jì)算存儲(chǔ)框架,在同一份數(shù)據(jù)上保證事務(wù)的同時(shí)支持實(shí)時(shí)分析,省去費(fèi)時(shí)的ETL過程。
彼時(shí),正是大數(shù)據(jù)興起之際,人們對(duì)于數(shù)據(jù)及其價(jià)值有著重新的認(rèn)識(shí)與認(rèn)知;另一方面,多核處理器、閃存等硬件技術(shù)的高速發(fā)展,也讓人們逐漸意識(shí)到數(shù)據(jù)庫設(shè)計(jì)是時(shí)候重新設(shè)計(jì)了,在同一數(shù)據(jù)庫處理OLTP和OLAP請(qǐng)求的可行性大幅提升。
所以,作為國產(chǎn)數(shù)據(jù)庫的兩大代表,PingCAP和OceanBase齊刷刷瞄準(zhǔn)HTAP,的確是摸準(zhǔn)了時(shí)代的脈搏。但今天的HTAP已經(jīng)與過去大不相同,數(shù)據(jù)資源、數(shù)據(jù)消費(fèi)習(xí)慣以及數(shù)據(jù)架構(gòu)的顛覆性變化,既賦予了HTAP新時(shí)代的內(nèi)涵,也讓HTAP承擔(dān)起更重大的責(zé)任。
HTAP因數(shù)而變
為什么HTAP會(huì)變得如此炎手可熱?
原因始終繞不開一個(gè)“數(shù)”字。如果仔細(xì)研究Gartner關(guān)于HTAP的定義,我們會(huì)發(fā)現(xiàn)“同時(shí)支持OLTP和OLAP、創(chuàng)新計(jì)算存儲(chǔ)框架、去掉ETL”這幾大關(guān)鍵詞都跟“數(shù)據(jù)”密切相關(guān),其背后是數(shù)據(jù)資源、數(shù)據(jù)消費(fèi)習(xí)慣以及數(shù)據(jù)架構(gòu)顛覆性的改變。
首先,數(shù)據(jù)產(chǎn)生方式、規(guī)模、速度與過去大不同。以行為和機(jī)器產(chǎn)生的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)正在成為數(shù)據(jù)增長的主力軍,這些數(shù)據(jù)無論是數(shù)據(jù)規(guī)模、密集度、產(chǎn)生速度都遠(yuǎn)超交易型的結(jié)構(gòu)化數(shù)據(jù);這也直接驅(qū)動(dòng)著HTAP場景在未來會(huì)更加豐富化。
其次,實(shí)時(shí)性的數(shù)據(jù)消費(fèi)正在成為新常態(tài),數(shù)據(jù)消費(fèi)的人群規(guī)模、場景豐富程度迅速增加,無論是最終消費(fèi)者,還是企業(yè)員工都有數(shù)據(jù)消費(fèi)需求,驅(qū)動(dòng)著OLTP場景與OLAP場景互相滲透,彼此之間的界限變得模糊。
例如,一個(gè)快消品的調(diào)研員,會(huì)通過手持終端設(shè)備隨時(shí)隨地了解產(chǎn)品銷售情況和預(yù)測(cè)銷售趨勢(shì),進(jìn)而根據(jù)數(shù)據(jù)做出相應(yīng)決策;一個(gè)基金經(jīng)理往往需要隨時(shí)根據(jù)客戶資產(chǎn)凈值、交易頻次變化、金融產(chǎn)品銷售情況等一系列數(shù)據(jù)服務(wù),來有針對(duì)性進(jìn)行營銷決策……而這些決定常常需要幾分鐘甚至幾秒鐘內(nèi)完成,實(shí)時(shí)性需求成為新一代HTAP的剛需。
過去,OLTP場景僅僅負(fù)責(zé)產(chǎn)生數(shù)據(jù),數(shù)據(jù)往往需要搬運(yùn)到數(shù)據(jù)倉庫或者機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行數(shù)據(jù)消費(fèi),數(shù)據(jù)消費(fèi)人群也僅僅是數(shù)據(jù)倉庫管理員、決策層等少數(shù)人群;現(xiàn)在,在數(shù)據(jù)驅(qū)動(dòng)型場景大幅增加的加持下,人人都是隨時(shí)隨地的數(shù)據(jù)消費(fèi)者,極大推動(dòng)OLTP場景與OLAP場景的融合。
第三,數(shù)據(jù)驅(qū)動(dòng)型場景的井噴式出現(xiàn),讓計(jì)算與數(shù)據(jù)兩個(gè)角色出現(xiàn)變化,過去一直都是以計(jì)算為核心,而數(shù)據(jù)驅(qū)動(dòng)型場景則是以數(shù)據(jù)為核心,核心角色的轉(zhuǎn)變意味著數(shù)據(jù)架構(gòu)將發(fā)生徹底改變。
所以這就涉及到一個(gè)核心問題:即在OLTP場景和OLAP場景加速融合的趨勢(shì)下,在架構(gòu)層到底是Move Data還是Move Code。過去,OLTP場景產(chǎn)生數(shù)據(jù)之后,往往需要通過ETL將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫,然后在數(shù)據(jù)倉庫中建模、ODS、建立報(bào)表,如果涉及到需要應(yīng)用到機(jī)器學(xué)習(xí),還需要將數(shù)據(jù)導(dǎo)入到機(jī)器學(xué)習(xí)平臺(tái),數(shù)據(jù)移動(dòng)次數(shù)已經(jīng)足夠頻繁?,F(xiàn)在,OLTP場景和OLAP場景加速融合,BI呈現(xiàn)和AI操作服務(wù)實(shí)時(shí)化,數(shù)據(jù)互相移動(dòng)將更加頻繁,這無疑對(duì)于數(shù)據(jù)架構(gòu)帶來極大挑戰(zhàn)。
關(guān)于數(shù)據(jù)移動(dòng),AWS有一個(gè)經(jīng)典的描述:AWS認(rèn)為隨著數(shù)據(jù)量的不斷增加,數(shù)據(jù)的往來移動(dòng)操作變得越來越困難,稱之為“數(shù)據(jù)重力”現(xiàn)象。要想解決“數(shù)據(jù)重力”現(xiàn)象,AWS的做法類似Move Data,針對(duì)每個(gè)場景有專用數(shù)據(jù)庫,并且集成Athena、Glue等工具集,讓ETL等移動(dòng)操作更加集成化、自動(dòng)化和高效化。這種模式比較適合大型互聯(lián)網(wǎng)企業(yè),擁有比較強(qiáng)大的技術(shù)團(tuán)隊(duì)。
另一種則是Move Code,通過HTAP這種融合的數(shù)據(jù)平臺(tái),在一份數(shù)據(jù)上同時(shí)支撐業(yè)務(wù)系統(tǒng)運(yùn)行并實(shí)現(xiàn)OLAP 場景,縮短數(shù)據(jù)移動(dòng)路徑,讓數(shù)據(jù)不再搬家,就地實(shí)現(xiàn)OLTP場景和OLAP場景的融合。這個(gè)更符合大多數(shù)企業(yè),尤其是企業(yè)數(shù)字化轉(zhuǎn)型的需求。
本質(zhì)上,HTAP的做法更具變革性,打破了OLTP場景和OLAP場景之間過去傳統(tǒng)的分界線,大幅提升大數(shù)據(jù)體系下數(shù)據(jù)實(shí)時(shí)處理和分析計(jì)算能力;另一方面,通過分布式架構(gòu),也徹底解決了過去困擾傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫多年的性能、擴(kuò)展性,實(shí)時(shí)性等難題。
但HTAP雖好,但實(shí)現(xiàn)起來卻沒有那么簡單。這里不能不提PingCAP,其在HTAP上的戰(zhàn)略布局顯然更快人一步,隨著TiDB 5.0的發(fā)布,也標(biāo)志著國產(chǎn)數(shù)據(jù)庫廠商在HTAP領(lǐng)域占領(lǐng)先機(jī)。
都是HTAP,哪些趨勢(shì)不能忽視
事實(shí)上,不光是PingCAP和OceanBase在搞HTAP,Oracle、GreenPlum這些傳統(tǒng)數(shù)據(jù)庫時(shí)代的大咖也在聚焦HTAP。
都是HTAP,哪些才是真正代表著HTAP的趨勢(shì)呢?
其一,產(chǎn)品架構(gòu)上需要對(duì)未來做好準(zhǔn)備,HTAP本質(zhì)上已經(jīng)開始逐漸演變成一體化數(shù)據(jù)服務(wù)平臺(tái),其多元化場景決定了絕非是OLTP和OLAP簡單疊加,如果通過OLTP架構(gòu)外擴(kuò)實(shí)現(xiàn)OLAP,顯然只能算權(quán)宜之計(jì),不能代表面向未來的架構(gòu)。用戶在分布式數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)的融合也產(chǎn)生了廣泛意義的HTAP的需求,長遠(yuǎn)來看,HTAP會(huì)成為數(shù)字化時(shí)代一種普遍性的需求。
以PingCAP為例,其TiDB 4.0就是一款為HTAP而設(shè)計(jì)的分布式數(shù)據(jù)庫,到了5.0版本,在TiFlash引入MPP模式與多項(xiàng)企業(yè)級(jí)特性的增加,使得TiDB 5.0發(fā)展為“一棧式數(shù)據(jù)服務(wù)平臺(tái)”。
其二,開源生態(tài)決定基礎(chǔ),數(shù)據(jù)庫作為重要的基礎(chǔ)軟件,HTAP數(shù)據(jù)庫未來需要在成百上千的場景中打磨,過去那種封閉模式不管是技術(shù)迭代還是用戶增長都是舉步維艱,走向開放開源的生態(tài)之路已經(jīng)是大勢(shì)所趨。比如,TiDB5.0發(fā)布會(huì)“TiDB+FIink”的混合架構(gòu)突破了狹義HTAP的范圍,開啟了“分布式數(shù)據(jù)+大數(shù)據(jù)技術(shù)?!钡腍TAP生態(tài)模式。
未來,將開源戰(zhàn)略作為核心戰(zhàn)略、構(gòu)建高度活躍的開源社區(qū)將會(huì)是HTAP數(shù)據(jù)庫的長遠(yuǎn)目標(biāo)。
其三,擁抱云是未來,需要支持云原生架構(gòu),充分利用云原生技術(shù)輕量化、松耦合、靈活度高等優(yōu)勢(shì),另外還實(shí)現(xiàn)跨云與多云部署。
同樣,TiDB 5.0在這方面也做出了榜樣,基于云原生架構(gòu)的TiDB 5.0能夠充分發(fā)揮云資源的能力,PingCAP在海外市場推出了TiDB Cloud服務(wù),堅(jiān)定擁抱云路線。國內(nèi)也有很多客戶在云原生架構(gòu)中采用TiDB構(gòu)建云原生技術(shù)棧。
HTAP將是新藍(lán)海
既然HTAP如此火熱,那么它會(huì)取代以O(shè)racle為代表的關(guān)系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫么?
在筆者看來,HTAP雖然不是一個(gè)很新的概念,卻是一個(gè)新的藍(lán)海市場,它代表著數(shù)據(jù)驅(qū)動(dòng)型場景井噴之后,用戶在數(shù)據(jù)處理、消費(fèi)整個(gè)需求的迭代升級(jí),HTAP的興起意味著一個(gè)新的數(shù)據(jù)庫藍(lán)海市場正在逐步形成。
因此,單純的談?wù)揌TAP點(diǎn)對(duì)點(diǎn)的取代關(guān)系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫其實(shí)并無太大意義,HTAP也不應(yīng)該成為國產(chǎn)化替代的一個(gè)“借口”,它更像一條新的數(shù)據(jù)庫賽道,給予了像PingCAP、OceanBase這些后起之秀更多市場機(jī)會(huì),讓它們看到了抓住新需求的機(jī)遇,以及打破數(shù)據(jù)庫市場壟斷局面的希望。
從更大的范圍來看,新一代HTAP,正在成為分布式數(shù)據(jù)庫與大數(shù)據(jù)棧融合的明珠,我們甚至可以預(yù)見,未來的HTAP不再是數(shù)據(jù)庫的一個(gè)技術(shù)術(shù)語,而是成為一種以融合簡化方式構(gòu)建數(shù)據(jù)棧的一種方式。
總體來看,HTAP現(xiàn)在很火,市場既有像PingCAP這樣具有前瞻性的新銳數(shù)據(jù)庫創(chuàng)新企業(yè),也有OceanBase這種自帶光環(huán)的明星數(shù)據(jù)庫公司,還有Oracle這樣的大鱷,未來競爭必然會(huì)愈發(fā)激烈。對(duì)于中國數(shù)據(jù)庫廠商而言,路很長、未來很遠(yuǎn),砥礪前行,且行且珍惜。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。