曾經(jīng)簡單的數(shù)據(jù)湖不斷發(fā)展,推動企業(yè)分析。隨著人工智能敲開企業(yè)大門,這一點在今天變得更加重要。當(dāng)這個想法在2010年代初出現(xiàn)時,有些人認(rèn)為數(shù)據(jù)湖是恰逢其時的正確架構(gòu)。數(shù)據(jù)湖是一個非結(jié)構(gòu)化數(shù)據(jù)存儲庫,利用新的低成本云對象存儲格式(如亞馬遜的S3)。它可以容納當(dāng)時從網(wǎng)絡(luò)上傳出的大量數(shù)據(jù)。
然而,對其他人來說,數(shù)據(jù)湖是一種容易被嘲笑的“市場結(jié)構(gòu)”。這一陣營的人稱之為“數(shù)據(jù)沼澤”。這個陣營中的許多人青睞歷史悠久但并不便宜的關(guān)系數(shù)據(jù)倉庫。
盡管存在質(zhì)疑,數(shù)據(jù)湖已經(jīng)發(fā)展并成熟,成為當(dāng)今人工智能和分析領(lǐng)域的關(guān)鍵組成部分。
隨著生成式人工智能重新關(guān)注數(shù)據(jù)架構(gòu),我們將仔細研究數(shù)據(jù)湖如何轉(zhuǎn)變以及它們在推動高級人工智能分析方面所發(fā)揮的作用。
數(shù)據(jù)湖的需求
對于追求電子商務(wù)和相關(guān)領(lǐng)域數(shù)據(jù)驅(qū)動洞察的年輕企業(yè)來說,實施數(shù)據(jù)湖的好處是多方面的。
亞馬遜、谷歌、雅虎、Netflix、Facebook等企業(yè)都開發(fā)了自己的數(shù)據(jù)工具。這些工具通常基于ApacheHadoop和基于Spark的分布式引擎。新系統(tǒng)處理的數(shù)據(jù)類型比當(dāng)時分析數(shù)據(jù)倉庫中現(xiàn)有的關(guān)系數(shù)據(jù)類型結(jié)構(gòu)性更低。
對于那個時代的系統(tǒng)工程師來說,這種架構(gòu)顯示出了一些好處?!罢訚伞被颉昂础?,它將成為搜索、異常檢測、價格優(yōu)化、客戶分析、推薦引擎等先鋒應(yīng)用的基礎(chǔ)。
數(shù)據(jù)湖擁有巨大的未開發(fā)潛力,今天存儲的海量數(shù)據(jù)將推動明天的洞察和人工智能進步。
這種更靈活的數(shù)據(jù)處理方式是成長中的網(wǎng)絡(luò)巨頭的迫切需求。文本、圖像、音頻、視頻和其他數(shù)據(jù)“海嘯”根本不適合關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫處理。另一個缺點是:隨著每一批數(shù)據(jù)的加載,數(shù)據(jù)倉庫成本也隨之上升。
無論人們喜歡與否,數(shù)據(jù)湖如今仍充斥著數(shù)據(jù)。在數(shù)據(jù)處理中,數(shù)據(jù)工程師可以“立即存儲”數(shù)據(jù),然后決定以后如何處理數(shù)據(jù)。但基本數(shù)據(jù)湖架構(gòu)已擴展為更高級的數(shù)據(jù)發(fā)現(xiàn)和管理功能。
這一變革由自主開發(fā)的解決方案以及Databricks和Snowflake等一流初創(chuàng)企業(yè)的解決方案引領(lǐng),但還有更多企業(yè)參與其中。隨著數(shù)據(jù)中心規(guī)劃人員著眼于新的AI領(lǐng)域,它們的各種架構(gòu)如今受到了密切關(guān)注。
數(shù)據(jù)湖的演變:從Lake到Lakehouse
數(shù)據(jù)湖競賽的參與者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM watsonx.data、Microsoft Azure DataLakeStorage、Oracle CloudInfrastructure、Scality Ring和Starburst Galaxy等。
正如上述內(nèi)容所示,趨勢是將產(chǎn)品稱為“數(shù)據(jù)湖屋”,而不是數(shù)據(jù)湖。這個名字更類似于用于處理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)倉庫。是的,這代表了另一個牽強的類比,就像之前的數(shù)據(jù)湖一樣,受到了一些審查。
在數(shù)據(jù)市場中,命名是一門藝術(shù)。如今,解決數(shù)據(jù)湖初始缺陷的系統(tǒng)被指定為集成數(shù)據(jù)平臺、混合數(shù)據(jù)管理解決方案等。但奇怪的命名慣例不應(yīng)掩蓋功能方面的重要進步。
在當(dāng)今更新的分析平臺中,不同的數(shù)據(jù)處理組件以流水線方式連接。新數(shù)據(jù)工廠的進步可能集中在以下方面:
新的表格式:例如,DeltaLake和Iceberg建立在云對象存儲之上,為ApacheSpark、Hadoop和其他數(shù)據(jù)處理系統(tǒng)提供ACID事務(wù)支持。經(jīng)常關(guān)聯(lián)的Parquet格式可以幫助優(yōu)化數(shù)據(jù)壓縮。
元數(shù)據(jù)目錄:SnowflakeDataCatalog和DatabricksUnifyCatalog等設(shè)施只是執(zhí)行數(shù)據(jù)發(fā)現(xiàn)和跟蹤數(shù)據(jù)沿襲的一些工具。后者特性對于確保分析數(shù)據(jù)質(zhì)量至關(guān)重要。
查詢引擎:這些引擎為高性能查詢存儲在各種類型和位置的數(shù)據(jù)提供了通用的SQL接口。PrestoDB、Trinio和ApacheSpark就是其中的例子。
這些改進共同描述了當(dāng)今為使數(shù)據(jù)分析更有條理、更高效、更易于控制所做的努力。
它們伴隨著明顯的“先提取后轉(zhuǎn)換”方法的使用。這與數(shù)據(jù)倉庫熟悉的提取轉(zhuǎn)換加載(ETL)數(shù)據(jù)暫存順序不同?,F(xiàn)在,方法可能改為提取加載轉(zhuǎn)換(ELT)。
不管叫什么名字,這都是高級數(shù)據(jù)架構(gòu)的決定性時刻。它們恰逢新一輪閃亮的生成式人工智能時代。但它們從雜物柜到定義更明確的容器的演變發(fā)展緩慢。
數(shù)據(jù)湖安全和治理問題
數(shù)據(jù)湖導(dǎo)致了大數(shù)據(jù)的徹底失敗。所以我們需要保護數(shù)據(jù)免受未經(jīng)授權(quán)的訪問,并遵守GDPR等治理標(biāo)準(zhǔn)。這意味著應(yīng)用元數(shù)據(jù)技術(shù)來識別數(shù)據(jù)。
主要需求是安全性。這需要精密度的訪問控制,而不僅僅是將文件扔進數(shù)據(jù)湖,更好的數(shù)據(jù)湖方法現(xiàn)在可以解決這個問題?,F(xiàn)在,組織中的不同角色反映在不同的權(quán)限設(shè)置中。
這種控制類型并不是早期數(shù)據(jù)湖的標(biāo)準(zhǔn),早期數(shù)據(jù)湖主要是難以更新的“僅追加”系統(tǒng)。
新的表格格式改變了這一現(xiàn)狀。近年來,DeltaLake、Iceberg和Hudi等表格格式相繼出現(xiàn),為數(shù)據(jù)更新支持帶來了顯著的改進。
Iceberg等工具的標(biāo)準(zhǔn)化和廣泛可用性為終端用戶在選擇系統(tǒng)時提供了更多優(yōu)勢。這可以節(jié)省成本并提高技術(shù)控制能力。
推動未來:數(shù)據(jù)湖通過處理大量非結(jié)構(gòu)化數(shù)據(jù)來為先進的人工智能分析提供動力。
生成式人工智能的數(shù)據(jù)湖
如今,生成式人工智能已成為許多企業(yè)待辦事項清單中的首要任務(wù),而數(shù)據(jù)湖和數(shù)據(jù)湖庫與這一現(xiàn)象密切相關(guān)。生成式人工智能模型熱衷于在大量數(shù)據(jù)上運行。與此同時,計算成本可能會飆升。
人工智能與數(shù)據(jù)管理之間日益緊密的聯(lián)系揭示了未來的關(guān)鍵機遇和障礙:
人工智能將改變數(shù)據(jù)管理
數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)湖屋將有助于改進GenAI,但這也是一條雙向的道路。生成式人工智能正在推動進步,這將極大地增強數(shù)據(jù)處理過程本身,這包括數(shù)據(jù)準(zhǔn)備、構(gòu)建BI儀表板和創(chuàng)建ETL管道。
生成式人工智能為解決數(shù)據(jù)管理中的模糊問題提供了獨特的機會,比如數(shù)據(jù)清理。這一直是人類的活動,而自動化則是一項挑戰(zhàn)?,F(xiàn)在我們可以應(yīng)用[生成式人工智能]技術(shù)來獲得相當(dāng)高的準(zhǔn)確性。實際上可以使用基于自然語言的交互來完成部分工作,從而大大提高工作效率。
企業(yè)將不斷努力將工作連接到多個數(shù)據(jù)湖,并專注于更加自動化的操作,以增強數(shù)據(jù)的可發(fā)現(xiàn)性。
人工智能數(shù)據(jù)湖將帶來更具彈性的數(shù)據(jù)中心
人工智能正在挑戰(zhàn)現(xiàn)有的游戲規(guī)則。這意味著數(shù)據(jù)湖工具既可以縮小規(guī)模,也可以擴大規(guī)模。這意味著支持?jǐn)?shù)據(jù)中心和云端的靈活計算。
在某些月份的某些日子,數(shù)據(jù)團隊希望將數(shù)據(jù)移至本地。其他時候,他們希望將數(shù)據(jù)移回云端。但是,當(dāng)你來回移動所有這些數(shù)據(jù)工作負(fù)載時,就會產(chǎn)生負(fù)擔(dān)。
當(dāng)首席財務(wù)官們開始關(guān)注人工智能的“稅收”,即其對支出的影響時,數(shù)據(jù)中心將成為試驗場。IT領(lǐng)導(dǎo)者將專注于通過真正彈性的可擴展性將計算帶入數(shù)據(jù)。
人工智能基礎(chǔ)模型輸出的定制是關(guān)鍵
這就是你如何賦予它你的業(yè)務(wù)語言,比如可以使用數(shù)據(jù)定制AI。它將從用例和質(zhì)量角度以您想要的方式有效地代表您的企業(yè)。
定制工作應(yīng)與新AI時代的數(shù)據(jù)治理相輔相成。治理提供生命周期管理和監(jiān)控護欄,以確保遵守您自己的企業(yè)政策以及任何監(jiān)管政策。
更多本地處理即將到來
精心策劃的數(shù)據(jù)湖對于支持AI工作負(fù)載(包括與生成AI相關(guān)的工作負(fù)載)至關(guān)重要。我們將看到人們對混合數(shù)據(jù)架構(gòu)的興趣激增,部分原因是AI和機器學(xué)習(xí)的興起。
人工智能的這種勢頭將把更多的數(shù)據(jù)帶回本地世界或混合世界。企業(yè)不會想把所有的數(shù)據(jù)和人工智能模型都發(fā)送到云端,因為把這些數(shù)據(jù)放到云端的成本太高了。
使用本質(zhì)上與存儲分離的查詢和計算引擎是一種主流趨勢,這種趨勢將在人們已經(jīng)擁有的多樣化數(shù)據(jù)基礎(chǔ)設(shè)施中以及跨多個數(shù)據(jù)湖發(fā)揮作用。這通常被稱為“將計算轉(zhuǎn)移到數(shù)據(jù)”。
數(shù)據(jù)越多就越好嗎?
基于未分類、不足或無效數(shù)據(jù)的AI工作負(fù)載是一個日益嚴(yán)重的問題。但正如數(shù)據(jù)湖的發(fā)展所表明的那樣,這是一個可以通過數(shù)據(jù)管理解決的已知問題。
顯然,如果無法理解,那么獲取大量數(shù)據(jù)也是無益的。如果能利用數(shù)據(jù),數(shù)據(jù)越多越好。但如果不能利用,數(shù)據(jù)就沒有任何用處。
數(shù)據(jù)湖、數(shù)據(jù)倉庫及其數(shù)據(jù)湖屋分支使企業(yè)能夠使用更多類型和更多數(shù)據(jù)。這對生成式人工智能模型很有幫助,這些模型在對大型、多樣化的數(shù)據(jù)集進行訓(xùn)練時會得到改進。如今,數(shù)據(jù)湖以各種形式存在。
CIBIS峰會
由千家網(wǎng)主辦的2024年第25屆CIBIS建筑智能化峰會即將開啟,本屆峰會主題為:“匯智提質(zhì):開啟未來新篇章”。屆時,我們將攜手全球知名智能化品牌及業(yè)內(nèi)專家,共同探討物聯(lián)網(wǎng)、AI、云計算、大數(shù)據(jù)、智慧建筑、智能家居、智慧安防等熱點話題與最新技術(shù)應(yīng)用,分享如何利用更智慧、更高效、更安全、更低碳的智慧技術(shù),共同開啟未來美好智慧生活。
歡迎建筑智能化行業(yè)小伙伴報名參會,共同分享交流!
報名方式
長沙站(10月24日):https://hdxu.cn/MrRqa
成都站(11月05日):https://hdxu.cn/7FoIq
西安站(11月07日):https://hdxu.cn/ToURP
北京站(11月19日):https://hdxu.cn/aeV0J
上海站(11月21日):https://hdxu.cn/xCWWb
廣州站(12月05日):https://hdxu.cn/QaqDj
更多2024年峰會信息,詳見峰會官網(wǎng):http://summit.qianjia.com
- 業(yè)績創(chuàng)歷史新高后 瑞芯微副總經(jīng)理陳鋒辭職
- 業(yè)績創(chuàng)歷史新高后 瑞芯微副總經(jīng)理陳鋒辭職
- 股票可能被終止上市!鵬博士2024年預(yù)計虧損7.75億元
- 高新興2024年預(yù)計虧損2.2億元—3.2億元
- 業(yè)務(wù)快速擴張 美格智能2024年度預(yù)計凈利潤同比增長73.62%至120.12%
- 增長近五倍 移遠通信2024年度預(yù)計凈利潤約5.4億元
- 虧損收窄 日海智能2024年度預(yù)計虧損1.2億元-1.6億元
- 千家早報|北京超前布局6G產(chǎn)業(yè);索菲亞智能整家已接入小米米家 App——2025年01月23日
- 違規(guī)減持0.42%,千億市值新易盛實控人被罰沒3149.9萬元
- 受AI和混合云推動 分布式云網(wǎng)絡(luò)市場到2028年將達170億美元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。