近日,阿里云宣布高性能時(shí)間序列數(shù)據(jù)庫 (High-Performance Time Series Database , 簡稱 HiTSDB) 正式商業(yè)化。
先跟大家聊一下什么叫時(shí)序數(shù)據(jù)。簡單的說,就是時(shí)間上分布的一系列數(shù)值,關(guān)鍵字是數(shù)值,我們一般認(rèn)為的時(shí)序數(shù)據(jù)是什么時(shí)間發(fā)生了什么事情,但是在時(shí)序數(shù)據(jù)這個(gè)領(lǐng)域里定義的時(shí)序數(shù)據(jù)全都是跟數(shù)值有關(guān)的。也就是說,如果只是一個(gè)帶有時(shí)間戳的一條數(shù)據(jù)并不能叫做時(shí)序數(shù)據(jù)。舉個(gè)例子,比如像我早上8點(diǎn)半上樓吃了個(gè)飯這條記錄,相當(dāng)于一個(gè)日志,這個(gè)本身不構(gòu)成一個(gè)時(shí)序數(shù)據(jù),但是如果某個(gè)餐廳早上8點(diǎn)半同時(shí)有50個(gè)人在那里吃飯,這個(gè)50加上餐廳的信息再加這個(gè)時(shí)間點(diǎn)就構(gòu)成了一個(gè)時(shí)序數(shù)據(jù)。
單值與多值建模
實(shí)際上通用的建模方式有兩種,其中的一種是單值。實(shí)際上我們是針對不同的東西來建模的,多值的模型是針對數(shù)據(jù)源建模,我們每一行數(shù)據(jù)針對的是一個(gè)數(shù)據(jù)源,它的三個(gè)被測量的指標(biāo)在同一列上,所以每一個(gè)數(shù)據(jù)源,數(shù)據(jù)的來源在每一個(gè)時(shí)間點(diǎn)上都有一行,這就是多值的模型。
還有一種模型是單值的模型,單值的模型我們是把它測量的精確到時(shí)間序列上,也就在時(shí)間序列的每個(gè)時(shí)間點(diǎn)上只有一個(gè)值,所以是個(gè)單值,也就是說對于多值模型來說它每一行數(shù)據(jù)對應(yīng)的是一個(gè)數(shù)據(jù)源,對于單值模型來說它對應(yīng)的是一個(gè)時(shí)間序列,實(shí)際上多值模型對應(yīng)的是一個(gè)數(shù)據(jù)源在一個(gè)時(shí)間點(diǎn)上就會產(chǎn)生一行數(shù)據(jù),而在單值模型里一個(gè)數(shù)據(jù)源上面的每一個(gè)指標(biāo)會產(chǎn)生一行數(shù)據(jù)。
什么是插值和降精度?
如上前面所講,時(shí)間序列會分布在一些時(shí)間線上,數(shù)據(jù)源和測量指標(biāo)確定了的話,時(shí)間序列是隨著時(shí)間軸往后分布的,實(shí)際上它的采樣在一個(gè)典型的場景里是固定時(shí)間間隔的,它中間一些點(diǎn)做處理會牽扯到插值和降精度處理。比如說中間丟失了一個(gè)點(diǎn),比較簡單的方法是中間插一個(gè)值,常用的方法是線性插值,就是在時(shí)間軸上畫一個(gè)直線中間的點(diǎn)就插出來了。
另一個(gè)叫降精度,例如我們有個(gè)按秒采樣的時(shí)間序列,顯示時(shí)間范圍是一年的數(shù)據(jù),為了便于查看,需要把時(shí)間精度降到一天。比如我們只選這一天中的最大值或者最小值或者平均值,作為這一天的氣溫,也就是最高氣溫,最低氣溫和平均氣溫的概念。用算法或者把時(shí)序數(shù)據(jù)轉(zhuǎn)換成精度比較低的時(shí)間序列以便于觀察和理解它,這是在傳統(tǒng)數(shù)據(jù)庫里沒有的一種方式。
再一個(gè)就是數(shù)據(jù)聚合,也是非常典型的基于設(shè)備的數(shù)據(jù)統(tǒng)計(jì),比如這里有很多設(shè)備指標(biāo)數(shù)據(jù)構(gòu)成的時(shí)間線,時(shí)序數(shù)據(jù)的聚合是在時(shí)間線的維度上的,而不是按點(diǎn)的,在處理平時(shí)處理的空間聚合的話,一般是把很多數(shù)據(jù)點(diǎn)按照一個(gè)個(gè)聚合起來,而實(shí)際數(shù)據(jù)處理的時(shí)候一般會把它抽象的點(diǎn)連成線就是剛才看的時(shí)間序列,每個(gè)數(shù)據(jù)源在一個(gè)測量值上會產(chǎn)生一行時(shí)間線,加上時(shí)間序列,如果是根據(jù)某一個(gè)維度上的測量的話,在同一維度就能調(diào)成線就把時(shí)間序列處理出來了。
舉個(gè)例子, 智慧園區(qū)的業(yè)務(wù)系統(tǒng)需要查看一個(gè)樓宇的某盞燈的耗電量情況,那么就需要把這盞燈的耗電量數(shù)據(jù)從數(shù)據(jù)庫中查詢并展示出來,如果由于采集的故障導(dǎo)致某個(gè)時(shí)刻用電量數(shù)據(jù)缺失,那么需要通過特定算法來近似的估算出這個(gè)數(shù)據(jù),這個(gè)計(jì)算補(bǔ)全數(shù)據(jù)的過程就是“插值”。而當(dāng)需要查看這盞燈一年的耗電趨勢情況時(shí),通常只需要計(jì)算出每一天的耗電量,進(jìn)行查看,而不需要把每一個(gè)時(shí)刻采集的數(shù)據(jù)全部輸出出來,這個(gè)將原始精度轉(zhuǎn)化為業(yè)務(wù)需求精度的過程就是“降精度”。而如果要統(tǒng)計(jì)某一個(gè)樓層或者樓宇的用耗電量整體趨勢數(shù)據(jù)時(shí),就需要將所有統(tǒng)計(jì)范圍內(nèi)的燈具的耗電量數(shù)據(jù)做“合并統(tǒng)計(jì)”,這個(gè)類似的統(tǒng)計(jì)過程就是Aggregation。
時(shí)序數(shù)據(jù)降精度是在時(shí)間序列維度上做的。對于關(guān)系數(shù)據(jù)庫來說,首先要把時(shí)間序列維度拿出來,然后在中間插值,而實(shí)際上 SQL 是按點(diǎn)來操作的。所以如果要做降精度的話,需要用一個(gè)值查詢把整條時(shí)間序列上的數(shù)據(jù)查詢出來,插好值之后才能做時(shí)間序列之間的聚合,那么服務(wù)和 SQL 服務(wù)器之間的吞吐量非常大,相當(dāng)于 SQL 只是一個(gè)數(shù)據(jù)通道需要把所有值都拉出來運(yùn)算一遍,這個(gè)查詢性能會非常慢,并且每一次計(jì)算都需要重新拉取數(shù)據(jù),相對 HiTSDB,這個(gè)性就能差了幾百倍,在空間聚合 Aggregator 支持也非常全面,支持 ADhoc 查詢,HiTSDB 通過引入倒排索引和數(shù)據(jù)分片提升檢索時(shí)間序列的效率,通過并行計(jì)算架構(gòu),整體計(jì)算性能提升非常明顯。
HiTSDB高壓縮技術(shù) 存儲成本降低90%
物聯(lián)網(wǎng)領(lǐng)域是最典型的時(shí)序數(shù)據(jù)產(chǎn)生和應(yīng)用的場景,這些場景具備一些特征,技術(shù)數(shù)據(jù)量特別大,比如某個(gè)智能設(shè)備的溫度傳感器,首先第一是時(shí)間序列會持續(xù)的產(chǎn)生大量的數(shù)據(jù),持續(xù)的產(chǎn)生什么意思呢?因?yàn)槲覀兺鶎r(shí)間序列來說是定時(shí)采樣功能,如果每秒測量一次,一天是86400秒,如果24小時(shí)都要用,平均每一個(gè)傳感器儀表在一個(gè)時(shí)間點(diǎn)上產(chǎn)生一個(gè)數(shù)據(jù)點(diǎn),一個(gè)儀表就產(chǎn)生86400個(gè)數(shù)據(jù),如果把全國各個(gè)縣都布一個(gè)采樣點(diǎn),那一天數(shù)據(jù)就上億了,實(shí)際上大家作為氣象采樣來說每一個(gè)縣對應(yīng)一個(gè)溫度傳感器顯然有點(diǎn)不夠的,可能我們是每一個(gè)街道甚至每個(gè)小區(qū)都有這樣的傳感器,那么這個(gè)數(shù)據(jù)加起來實(shí)際上是一個(gè)非常驚人的數(shù)字。
利用HiTSDB 的高壓縮技術(shù),相比較 OpenTSDB 提升10倍左右,通常原始時(shí)序數(shù)據(jù)的大小在 200-300 Byte,OpenTSDB 單數(shù)據(jù)點(diǎn)消耗約20 Byte,HiTSDB 單數(shù)據(jù)點(diǎn)消耗約 2Byte,通過 HiTSDB 可以節(jié)約90%以上的數(shù)據(jù)庫存儲成本。
對于物聯(lián)網(wǎng)平臺企業(yè)可以利用HiTSDB 和阿里云的產(chǎn)品能力基于如下的架構(gòu)構(gòu)建云上的物聯(lián)網(wǎng)平臺。
HiTSDB 除了在云上提供高效的時(shí)序數(shù)據(jù)服務(wù)能力,企業(yè)可以也可以利用HiTSDB 結(jié)合阿里云工業(yè)大腦和城市大腦的大數(shù)據(jù)方案實(shí)現(xiàn)智能制造生產(chǎn)和智慧城市。 利用HiTSDB 的“邊緣+ 中心”的解決方案,可以滿足工業(yè)物聯(lián)網(wǎng)IoT尤其是電力能源行業(yè)的數(shù)據(jù)邊緣端本地存儲分析,逐級數(shù)據(jù)上報(bào) ,以及網(wǎng)絡(luò)不穩(wěn)態(tài)的數(shù)據(jù)數(shù)據(jù)穩(wěn)定上報(bào)和中心端的全局設(shè)備數(shù)據(jù)監(jiān)控分析,打通智慧大腦的數(shù)據(jù)通道。
HiTSDB商業(yè)化首發(fā)期間,官網(wǎng)推出85折優(yōu)惠活動(dòng)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 保時(shí)捷中國區(qū)裁員風(fēng)波:賠償標(biāo)準(zhǔn)引爭議,員工不滿成焦點(diǎn)
- 職場風(fēng)向標(biāo)揭秘:韌性公司榜單出爐,CEO林凡談企業(yè)必修基本功
- 北外報(bào)告:近九成入境旅客熱切期待嘗試‘碰一下’新支付方式,‘中國速度’引人矚目
- 華為邊緣云:邊緣云市場新星,上半年規(guī)模同比增長21%斬獲54.8億元市場佳績
- 生成式AI風(fēng)暴:到2029年,百度引領(lǐng)的產(chǎn)業(yè)或?qū)j升至728億美元市場!
- 億緯鋰能:華中地區(qū)儲能巨擘,億緯鋰能超級工廠投產(chǎn)引領(lǐng)行業(yè)新紀(jì)元!
- 比亞迪新能源汽車銷量持續(xù)增長,中汽協(xié):11月同比增長47.4%!
- Alphabet首席投資官揭秘:谷歌人工智能搜索大賭局,引領(lǐng)未來科技浪潮!
- 華為:科技引領(lǐng)未來,創(chuàng)新照亮夢想之路
- 英偉達(dá)發(fā)布“NaVILA模型”:引領(lǐng)機(jī)器人步入自主導(dǎo)航新時(shí)代!
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。