如果有人問數(shù)據(jù)湖是什么,我會告訴他們,是“桶裝水”的集合。
隨著企業(yè)業(yè)務(wù)的發(fā)展,數(shù)據(jù)出現(xiàn)井噴,數(shù)據(jù)量呈幾何增長,數(shù)據(jù)來源和類型更加多元化。傳統(tǒng)數(shù)據(jù)倉庫就如同“桶裝水商店”,已經(jīng)承載不了全部水體,因此需要一個可以滿足存儲需求的,新的架構(gòu)作為大數(shù)據(jù)的支撐。
這就是數(shù)據(jù)湖。它匯聚不同數(shù)據(jù)源的溪流,包括大量無序的非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像、聲音、網(wǎng)頁等)。我們把它倒入數(shù)據(jù)湖,然后開始探索該數(shù)據(jù)。我們希望這是一個包含所有數(shù)據(jù)的,一個超快、易于訪問的存儲庫,能解決集成難題的終極方法。
但實際上,存儲庫反而變成了一個緩慢、僵化的數(shù)據(jù)沼澤。大數(shù)據(jù)需要特殊的專長來分析數(shù)據(jù)。使用原始數(shù)據(jù)得出分析結(jié)論,將持續(xù)在數(shù)據(jù)質(zhì)量和治理方面發(fā)出危險信號。業(yè)內(nèi)給這種問題起了個名字,叫數(shù)據(jù)囤積障礙。
爆炸式增長的數(shù)據(jù)及數(shù)據(jù)孤島
你應(yīng)該明白了。只為了保存數(shù)據(jù)而存儲數(shù)據(jù),不是一個好主意。我們應(yīng)該有一個明確的使用目的,然后只向數(shù)據(jù)供應(yīng)鏈中導(dǎo)入相關(guān)的數(shù)據(jù)。當(dāng)數(shù)據(jù)水庫中的數(shù)據(jù)不再有用時,就直接丟棄它。沒有必要把某個特別的應(yīng)用程序生成的所有數(shù)據(jù)都存儲下來。以物聯(lián)網(wǎng)為例,傳感器會產(chǎn)生奇大無比的數(shù)據(jù)量,但大多數(shù)時候其實我們只是在意一些極端值而已,比如溫度超出了某個閾值范圍。下圖為某物聯(lián)網(wǎng)公司的業(yè)務(wù)示意圖。
首當(dāng)其沖的挑戰(zhàn)便是,數(shù)據(jù)存儲、數(shù)據(jù)處理、AI組件眾多。處理難度極大。
緊接著,數(shù)據(jù)孤島問題接踵而至。
多種數(shù)據(jù)源,每種數(shù)據(jù)單獨在一個庫中,業(yè)務(wù)人員需要在應(yīng)用層做數(shù)據(jù)集成/數(shù)據(jù)搬移,技能要求高,工程耗時長。
數(shù)據(jù)量日益增大,數(shù)據(jù)源日益增多,單個庫擴(kuò)容困難,性能下降,成本高,難以做跨市跨省等全量數(shù)據(jù)分析。
缺乏高級分析工具,前沿技術(shù),如機(jī)器學(xué)習(xí)、圖計算、深度學(xué)習(xí)等,未能充分利用多種數(shù)據(jù)深入挖掘價值。
用智能解決非智能
鑒于數(shù)據(jù)湖現(xiàn)狀,我們?nèi)绾卫盟鼈優(yōu)槠髽I(yè)帶來優(yōu)勢?這里是智能數(shù)據(jù)湖整體解決方案,包含四個關(guān)鍵的實踐:融合,高效,易用,智能
融合——云化的hadoop
統(tǒng)一數(shù)據(jù)存儲,再無數(shù)據(jù)孤島;開放格式,豐富的數(shù)據(jù)類型:JSON, CSV, AVRO,圖片,視頻等;開放接口,兼容原生社區(qū)應(yīng)用:100%兼容OBS和HDFS接口,總而言之,我們在數(shù)據(jù)湖中處理數(shù)據(jù),試圖找到新的洞察力。我們不會,任由數(shù)據(jù)處于最原始的格式,我們將優(yōu)化數(shù)據(jù)。確保數(shù)據(jù)得到治理,確保數(shù)據(jù)在語義上一致,并滿足業(yè)務(wù)的要求。
高效
一個字:快。實時數(shù)據(jù)實時分析, Apache CarbonData加速,萬億數(shù)據(jù)秒級響應(yīng)
易用
做一個一站式、端到端開發(fā)工具,支持大數(shù)據(jù)+AI敏捷開發(fā)??梢暬?代表豐富的可視化組件,圖形化編輯界面,同時支持定制;而數(shù)據(jù)湖一站式開發(fā)工具,可管理多種大數(shù)據(jù)服務(wù),實現(xiàn)跨服務(wù)作業(yè)編排調(diào)度;支持拖拉拽,預(yù)設(shè)10多種任務(wù)類型。
最后,對于數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量,數(shù)據(jù)安全的治理不可或缺。
數(shù)據(jù)湖治理:一站式治理平臺(數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量,數(shù)據(jù)安全)
智能
重點絕不僅僅是數(shù)據(jù),而是始終關(guān)于你要做什么工作。使用場合是什么,你可以運用什么應(yīng)用程序來處理該數(shù)據(jù)以便從中受益——用智能實現(xiàn)高效。
智能元數(shù)據(jù)采集,統(tǒng)一數(shù)據(jù)視圖
智能數(shù)據(jù)管理,無需人工拷貝
智能優(yōu)化建議,免DBA
對數(shù)據(jù)進(jìn)行“聯(lián)系”,而不是“收集”。相比將數(shù)據(jù)轉(zhuǎn)移到越來越大的集群或數(shù)據(jù)倉庫,讓數(shù)據(jù)待在數(shù)據(jù)湖進(jìn)行智能化處理,來得更省錢、更容易也更高效。
如果想先試試效果,無論是企業(yè)用戶,還是個人用戶,華為云均提供了一組免費套餐,最高可免費試用60天,與此同時,華為云數(shù)據(jù)湖工廠(Data Lake Factory)2018年12月31日前提供免費試用,名額有限。
更多詳細(xì)內(nèi)容,歡迎訪問:華為云官網(wǎng) EI企業(yè)智能 EI大數(shù)據(jù) 數(shù)據(jù)湖工廠DLF
- 特斯拉Model Y新版預(yù)售,iPhone 18 Pro系列升級,汽車界與科技界碰撞新火花
- 小鵬汽車何小鵬回應(yīng)特斯拉 Model Y 撞臉風(fēng)波:設(shè)計碰撞,靈感碰撞,究竟誰更勝一籌?
- 日本車商2024年新車銷量下滑,本田跌至近10年最低位,中國市場面臨挑戰(zhàn)?
- 英偉達(dá)批評美政府AI芯片出口限制:限制不利己,全球轉(zhuǎn)向替代技術(shù)之風(fēng)
- 特斯拉煥新Model Y難敵華為問界R7,智能科技誰領(lǐng)風(fēng)騷?
- 開源巨頭聯(lián)手打造Chromium聯(lián)盟,推動Linux生態(tài)創(chuàng)新發(fā)展
- 曹德旺巨資辦校,福耀科技大學(xué)引領(lǐng)行業(yè)新風(fēng)向,培養(yǎng)未來之星
- 愛馳汽車陷股權(quán)凍結(jié)風(fēng)波,能否順利復(fù)工復(fù)產(chǎn)引關(guān)注
- 小鵬汽車CEO何小鵬:雷軍不僅直言不諱,還勸我多做營銷,不失為良師益友
- 馬斯克大膽計劃:未來十年內(nèi)特斯拉機(jī)器人產(chǎn)能提升10倍,300億機(jī)器人將顛覆各行各業(yè)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。