精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

    科技云報(bào)道原創(chuàng)。

    10年前,Pentaho公司創(chuàng)始人兼CTO詹姆斯·迪克遜(James Dixon)在他的博客中第一次提出“數(shù)據(jù)湖”(Data Lake)的概念;10年后的今天,在業(yè)界“數(shù)據(jù)中臺(tái)”大火的時(shí)代背景下,再來(lái)討論“數(shù)據(jù)湖”,別有一番風(fēng)味。

    歷史的演變:從“數(shù)據(jù)倉(cāng)庫(kù)”到“數(shù)據(jù)湖”

    在萬(wàn)物互聯(lián)的時(shí)代,各行各業(yè)、各類(lèi)設(shè)備和應(yīng)用都在24小時(shí)不間斷產(chǎn)生大量數(shù)據(jù)。IDC統(tǒng)計(jì)顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計(jì)到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達(dá)到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價(jià)值變得越來(lái)越困難,如果無(wú)法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價(jià)值就無(wú)從談起。

    這時(shí)候,數(shù)據(jù)需要更深度的價(jià)值挖掘。目前,數(shù)據(jù)的價(jià)值呈現(xiàn)兩極化特征,一是及時(shí)發(fā)現(xiàn),實(shí)時(shí)分析快速促進(jìn)業(yè)務(wù)發(fā)展;二是長(zhǎng)期存放,數(shù)據(jù)累積起來(lái),探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價(jià)值,為業(yè)務(wù)發(fā)展提供參考。

    新的數(shù)據(jù)價(jià)值給企業(yè)帶來(lái)更多智能創(chuàng)新應(yīng)用,比如增長(zhǎng)黑客、推薦系統(tǒng),用戶(hù)行為分析,AIoT帶來(lái)的更多模型,這也意味著IT基礎(chǔ)設(shè)施的變革。

    以往的計(jì)算和存儲(chǔ)耦合的架構(gòu)就會(huì)呈現(xiàn)資源利用率非常低的狀況,數(shù)據(jù)是不斷累積、不斷增長(zhǎng),但計(jì)算的算力要求可能是峰谷,為了存儲(chǔ)更多的數(shù)據(jù)購(gòu)買(mǎi)更多的計(jì)算,擴(kuò)容的時(shí)候必須一起擴(kuò)容,最終導(dǎo)致穩(wěn)定性不是最優(yōu),兩種資源無(wú)法獨(dú)立擴(kuò)展,使用成本也不是最優(yōu)。

    在傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在Hadoop分布式文件系統(tǒng)(HDFS)系統(tǒng)上,引擎以Hadoop和Spark 為主,受到開(kāi)源軟件本身能力的限制,傳統(tǒng)技術(shù)無(wú)法滿(mǎn)足企業(yè)用戶(hù)在數(shù)據(jù)規(guī)模、存儲(chǔ)成本、查詢(xún)性能以及彈性計(jì)算架構(gòu)升級(jí)等方面的需求。

    如果這些多元的數(shù)據(jù)無(wú)法被其它應(yīng)用所使用,那么這一過(guò)程不可避免地會(huì)形成數(shù)據(jù)孤島,以至于無(wú)法滿(mǎn)足數(shù)據(jù)量迅速增長(zhǎng)的需求。

    傳統(tǒng)數(shù)據(jù)處理方式,就像“一條小河”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶(hù)可以設(shè)計(jì)“一個(gè)河道”,數(shù)據(jù)庫(kù)在最底層。數(shù)據(jù)經(jīng)過(guò)整理后形成中間層的數(shù)據(jù)倉(cāng)庫(kù),然后通過(guò)商務(wù)智能工具(BI)來(lái)及進(jìn)行展示。

    簡(jiǎn)單理解,在傳統(tǒng)數(shù)據(jù)處理過(guò)程中,用戶(hù)大概知道能有多少“水”,還可以通過(guò)“閘門(mén)”管控水量。

    但是,在互聯(lián)網(wǎng)時(shí)代,各種各樣的視頻、移動(dòng)終端信息如“洪水猛獸”,形成大規(guī)模的海量數(shù)據(jù),用戶(hù)來(lái)不及整理和使用。這時(shí),一個(gè)新的設(shè)想打開(kāi)了人們的視野,假設(shè)有那么一片洼地,沒(méi)有河道,所有數(shù)據(jù)先蓄積到里面,然后通過(guò)有效的工具進(jìn)行查詢(xún)和處理,這便是數(shù)據(jù)湖。

    國(guó)際研究機(jī)構(gòu)MarketsandMarkets最新研究報(bào)告顯示,到2024年,全球數(shù)據(jù)湖市場(chǎng)將突破200億美元,增至201億美元,復(fù)合年增長(zhǎng)率將高達(dá)20.6%??梢哉f(shuō),隨著數(shù)據(jù)治理與應(yīng)用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭(zhēng)的事實(shí)。

    對(duì)于數(shù)據(jù)湖而言,有幾個(gè)重要特點(diǎn)。第一,存儲(chǔ)的原始自然數(shù)據(jù),既可以是結(jié)構(gòu)化數(shù)據(jù),也可以是非結(jié)構(gòu)化數(shù)據(jù);第二,因?yàn)槭褂昧嗽朴?jì)算,用戶(hù)可以快速縮放海量數(shù)據(jù);第三,在數(shù)據(jù)查詢(xún)過(guò)程中,除了能進(jìn)行建目錄、數(shù)據(jù)遷移和抽取等動(dòng)作,還能進(jìn)一步歸類(lèi)、進(jìn)行數(shù)據(jù)分析等等。另外,數(shù)據(jù)湖不僅是高可用、高持久、海量數(shù)據(jù)處理的選擇,同時(shí)還能滿(mǎn)足安全、合規(guī)和審計(jì)等要求。

    而對(duì)于用戶(hù)來(lái)說(shuō),借助最新的數(shù)據(jù)湖解決方案,不僅能解決過(guò)去的數(shù)據(jù)孤島問(wèn)題,同時(shí)還能兼容傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)分析方法。最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機(jī)器學(xué)習(xí)結(jié)合,進(jìn)行預(yù)測(cè)性的分析。

    數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)并不是替代關(guān)系 湖倉(cāng)一體化成為新趨勢(shì)

    隨著數(shù)據(jù)湖概念的興起,業(yè)界對(duì)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的對(duì)比甚至爭(zhēng)論就一直不斷。有人說(shuō)數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺(tái),各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉(cāng)產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動(dòng)的特性。不過(guò)在我們看來(lái),數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)并不是替代關(guān)系,而是互為補(bǔ)充、相輔相成。

    無(wú)論是數(shù)據(jù)倉(cāng)庫(kù),還是數(shù)據(jù)湖,其所要解決的問(wèn)題離不開(kāi)數(shù)據(jù)的存儲(chǔ)、調(diào)用、處理、分析、應(yīng)用等。而隨著需求側(cè)的發(fā)展變化,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)被寄予了更高的期待:如何完成內(nèi)部的統(tǒng)一,從而滿(mǎn)足數(shù)據(jù)訪(fǎng)問(wèn)使用的靈活性與高性能并舉。

    早期業(yè)界認(rèn)為數(shù)據(jù)湖可能將會(huì)是未來(lái)的主流趨勢(shì),甚至有數(shù)據(jù)湖代替數(shù)據(jù)倉(cāng)庫(kù)之勢(shì),但隨著新技術(shù)發(fā)展的熱度下降,市場(chǎng)對(duì)數(shù)據(jù)湖的認(rèn)知愈發(fā)理性。畢竟,數(shù)據(jù)倉(cāng)庫(kù)在決策支持和商業(yè)智能應(yīng)用方面有著悠久的歷史。

    也因此,湖倉(cāng)一體化(Lakehouse)正在成為近些年來(lái)的熱點(diǎn)。湖倉(cāng)一體采用開(kāi)放式架構(gòu),既構(gòu)建于數(shù)據(jù)湖低成本的數(shù)據(jù)存儲(chǔ)架構(gòu)上,同時(shí)具備數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理和管理功能,助力商業(yè)決策。因此,從某種程度上來(lái)講,數(shù)據(jù)湖產(chǎn)品的不斷迭代升級(jí)也是在向湖倉(cāng)一體化趨勢(shì)靠近。隨著企業(yè)及組織不斷上云、數(shù)據(jù)分析需求的激增,湖倉(cāng)一體化分析方案正在成為下一代數(shù)據(jù)分析系統(tǒng)的核心。

    如今,越來(lái)越多的企業(yè)開(kāi)始融合數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的平臺(tái),不僅可以實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的功能,還實(shí)現(xiàn)了各種不同類(lèi)型數(shù)據(jù)的處理功能、數(shù)據(jù)科學(xué)、用于發(fā)現(xiàn)新模型的高級(jí)功能。

    相比單獨(dú)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,湖倉(cāng)一體提供完善的數(shù)據(jù)管理能力。數(shù)據(jù)湖中會(huì)存在兩類(lèi)數(shù)據(jù):原始數(shù)據(jù)和處理后的數(shù)據(jù)。數(shù)據(jù)湖中的數(shù)據(jù)會(huì)不斷的積累、演化,包含數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema,對(duì)于數(shù)據(jù)具有一定的權(quán)限管理能力。

    其次,湖倉(cāng)一體為企業(yè)提供全量數(shù)據(jù)的存儲(chǔ)場(chǎng)所,可以對(duì)數(shù)據(jù)的全生命周期進(jìn)行管理,包括數(shù)據(jù)的定義、接入、存儲(chǔ)、處理、分析、應(yīng)用的全過(guò)程。一個(gè)強(qiáng)大的數(shù)據(jù)湖,需要能做到對(duì)其間的任意一條數(shù)據(jù)的接入、存儲(chǔ)、處理、消費(fèi)過(guò)程是可追溯的,能夠清楚的重現(xiàn)數(shù)據(jù)完整的產(chǎn)生過(guò)程和流動(dòng)過(guò)程。

    一般情況下,數(shù)據(jù)的加載、轉(zhuǎn)換、處理會(huì)使用批處理計(jì)算引擎;需要實(shí)時(shí)計(jì)算的部分,會(huì)使用流式計(jì)算引擎;對(duì)于一些探索式的分析場(chǎng)景,可能又需要引入交互式分析引擎。對(duì)此,湖倉(cāng)一體擁有豐富的計(jì)算引擎,提供從批處理、流式計(jì)算、交互式分析到機(jī)器學(xué)習(xí)等各類(lèi)計(jì)算引擎。

    湖倉(cāng)一體本身還內(nèi)置多模態(tài)的存儲(chǔ)引擎,以滿(mǎn)足不同的應(yīng)用對(duì)于數(shù)據(jù)訪(fǎng)問(wèn)需求。但是,在實(shí)際的使用過(guò)程中,為了達(dá)到可接受的性?xún)r(jià)比,湖倉(cāng)一體解決方案提供可插拔式存儲(chǔ)框架,支持的類(lèi)型有HDFS/S3等, 并且在必要時(shí)還可以與外置存儲(chǔ)引擎協(xié)同工作,滿(mǎn)足多樣化的應(yīng)用需求。

    作為全球云計(jì)算巨頭,亞馬遜云科技在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)擁有多款產(chǎn)品,比如:Amazon Redshift,是一個(gè)基于云的重要的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,不僅具有強(qiáng)大的縮放能力,成本也是傳統(tǒng)的數(shù)據(jù)庫(kù)的十分之一。還有圖形數(shù)據(jù)庫(kù)Amazon Neptune,也在中國(guó)成功落地。

    近期,亞馬遜云科技又針對(duì)數(shù)據(jù)及數(shù)據(jù)分析等服務(wù)持續(xù)發(fā)力,推出“智能湖倉(cāng)”架構(gòu)。據(jù)了解,“智能湖倉(cāng)”架構(gòu)將亞馬遜云科技的數(shù)據(jù)服務(wù)無(wú)縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)之間數(shù)據(jù)移動(dòng)和訪(fǎng)問(wèn),并且進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù),以及在數(shù)據(jù)查詢(xún)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各類(lèi)專(zhuān)門(mén)構(gòu)建的服務(wù)之間按需移動(dòng),從而形成統(tǒng)一且連續(xù)的整體,滿(mǎn)足客戶(hù)各種實(shí)際業(yè)務(wù)場(chǎng)景下的不同需求。

    “智能湖倉(cāng)”架構(gòu)以Amazon Simple Storage Service(Amazon S3)為基礎(chǔ)構(gòu)建數(shù)據(jù)湖,作為中央存儲(chǔ)庫(kù),圍繞數(shù)據(jù)湖集成專(zhuān)門(mén)的“數(shù)據(jù)服務(wù)環(huán)”,包括數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務(wù),然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實(shí)現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動(dòng)和管理等。

    從Linux基金會(huì)開(kāi)啟開(kāi)源Lakehouse項(xiàng)目、Databricks新添Delta Engine來(lái)增強(qiáng)Lakehouse服務(wù)能力,到Apache Iceberg的火熱、AWS Lake Formation等,不難看到,湖倉(cāng)一體化正在成為主流服務(wù)商們探索的方向。同時(shí),隨著國(guó)內(nèi)外廠商們紛紛加入開(kāi)源生態(tài),推動(dòng)生態(tài)不斷成熟,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)的關(guān)聯(lián)正在變得愈發(fā)密切。

    不管是大數(shù)據(jù)開(kāi)發(fā)者,還是企業(yè)大數(shù)據(jù)技術(shù)決策者,都應(yīng)該重新審視數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的融合應(yīng)用,通過(guò)構(gòu)建更強(qiáng)大的業(yè)務(wù)平臺(tái)為企業(yè)減輕運(yùn)營(yíng)壓力,提高工作效率,讓企業(yè)IT為業(yè)務(wù)創(chuàng)造更多新的可能。

    來(lái)源:科技云報(bào)道

    免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

    2021-06-30
    數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?
    數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

    長(zhǎng)按掃碼 閱讀全文