自從我們在2014年推出Insight Data Engineering Fellows計劃以來,我們與數(shù)據(jù)行業(yè)的75多個團隊建立了聯(lián)系,討論了頂級團隊(如Facebook,Airbnb,Slack,紐約時報,LinkedIn,亞馬遜和Tesla)工程師面臨的最新挑戰(zhàn)。此外,我們不斷增長的校友網(wǎng)絡(luò)現(xiàn)在有著150多名工程師和750多名數(shù)據(jù)科學(xué)家 ,經(jīng)常在Insight社區(qū)分享他們的經(jīng)驗。感謝這個強大的社區(qū),我們有一個探索數(shù)據(jù)領(lǐng)域技術(shù)新興模式的獨一無二的基地。
我們不斷探索將這些知識傳遞給下一代數(shù)據(jù)工程師和擴散的更多數(shù)據(jù)社區(qū)的方法,開發(fā)了更為互動的數(shù)據(jù)工程生態(tài)系統(tǒng)圖,該迭代提供了數(shù)據(jù)管道核心組件的簡化視圖,同時更深入地探索了分布式系統(tǒng)技術(shù)的復(fù)雜世界。
數(shù)據(jù)工程趨勢
通過更新此地圖,我們已經(jīng)反映了當前數(shù)據(jù)團隊可用的工具和服務(wù)的最新變化。強調(diào)了一些值得注意的趨勢。
科技融合:Kafka 和 Spark
盡管有著數(shù)量巨大的工具被引入數(shù)據(jù)工程領(lǐng)域,似乎有兩個顯著的趨同點。
在眾多可用的排隊技術(shù)中,Kafka 是最廣泛采用的。
自從LinkedIn于2011年將其基于日志的解決方案發(fā)布給開源社區(qū)以來,Kafka的流行程度一直在穩(wěn)步上升,現(xiàn)在已成為流媒體數(shù)據(jù)的默認攝取工具。
除了流媒體數(shù)據(jù)之外,Kafka越來越多地被用作許多公司的微服務(wù)的集中式消息總線 。除了讓人印象深刻的高吞吐量、高可靠性和與許多其他流行技術(shù)的集成之外,其廣為流行的原因就是易于使用。
其他廣為傳播的技術(shù)有Apache Spark,通用的分布式處理框架。
自從Hadoop早期壟斷“大數(shù)據(jù)”以來,出現(xiàn)了許多有能力的框架,Spark已經(jīng)鞏固了其處理大規(guī)模數(shù)據(jù)的“默認”工具的地位。
Spark已經(jīng)被證明是一個功能全面的工具,從傳統(tǒng)批處理到在線機器學(xué)習(xí)模型的一切工作都能勝任。 Spark高水平的開發(fā),像DataFrames和SQL一樣結(jié)構(gòu)化的APIs,以及流和圖形庫使得它可以使用代碼庫解決許多實際問題。和Kafka一樣,它有著很棒的社區(qū)支持,而且很多新的和現(xiàn)有的項目正在與Spark集成。
雖然Kafka和Spark是受歡迎的選擇,但肯定不適合每一種用例。調(diào)查每個工具的優(yōu)點,缺點和替代方案很重要。我們經(jīng)常在Insight強調(diào),請務(wù)必選擇正確的工具!
架構(gòu)趨勢:與Kappa統(tǒng)一
除了特定技術(shù)的趨勢,我們注意到許多團隊朝著理想化的Kappa架構(gòu)前進。與Lambda方法相反,許多技術(shù)現(xiàn)在采用的批處理問題只是流處理問題的一個子集。
雖然還不是最前沿的,但像Flink , Apex和Gearpump這樣的技術(shù)正在推動向統(tǒng)一批處理和流處理框架的愿景前進。即使是Spark,隨著結(jié)構(gòu)化流的發(fā)布,現(xiàn)在提供了一個單一的界面來操作批量和流數(shù)據(jù)。
從某種意義上說, Apache Beam項目是這些努力的結(jié)果?;贕oogle的數(shù)據(jù)流模型,Beam旨在創(chuàng)建一個統(tǒng)一的API,允許開發(fā)人員編寫與其下的處理引擎無關(guān)的應(yīng)用。
隨著Apache Beam等統(tǒng)一處理框架和項目的出現(xiàn),Kappa架構(gòu)可能會快速被采用。不管架構(gòu)如何,隨著處理框架的不斷改進和發(fā)展,我們期待看到批處理和流處理之間的界線仍然模糊。
托管服務(wù)增加
雖然稍有爭議,“無服務(wù)器”的產(chǎn)品也是一個發(fā)展趨勢?!凹~約時報”等數(shù)據(jù)團隊越來越希望直接架構(gòu)數(shù)據(jù)管道,而不用去管理云基礎(chǔ)設(shè)施。雖然這些服務(wù)的生產(chǎn)用例相對有限,但它們提供的功能正在不斷改進。通過像AWS S3,Redshift,Athena,EMR,Kinesis和Lambda以及GCP的BigQuery,Pub / Sub和DataProc這樣的服務(wù),主要的云提供商正在為這些全方位服務(wù)的解決方案提供投資。
類似于從“內(nèi)部”服務(wù)器到云基礎(chǔ)設(shè)施的過渡,數(shù)據(jù)團隊可能會越來越多地利用數(shù)據(jù)服務(wù)。同時,部分自助服務(wù)和部分托管的混合架構(gòu)將變得越來越普遍。
云提供商的趨勢:AWS與GCP
過去幾年的另一個顯著變化是亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)面臨的競爭增多。雖然像Microsoft Azure,IBM,DigitalOcean和Rackspace這樣的平臺已經(jīng)存在了一段時間,但似乎沒有人可以挑戰(zhàn)AWS在2006年發(fā)布的先行優(yōu)勢。
然而,Google一直為內(nèi)部用戶開發(fā)自己的復(fù)雜基礎(chǔ)架構(gòu)。事實上,Google一直以內(nèi)部開拓分布式系統(tǒng)而聞名,但選擇發(fā)布白皮書而不是開源。隨著對谷歌云平臺(GCP)的大量投入,他們已推出Google Infrastructure For Everyone Else (GIFEE) 的托管服務(wù)。
在過去幾年中,GCP取得了長足的進步,迅速成為一個有利的競爭者。雖然GCP與AWS相比并不能提供全面的服務(wù),但越來越多的頂級團隊(如Spotify)正在進行轉(zhuǎn)換 。也許云提供商的領(lǐng)域最終會減少,但是在不久的將來我們會看到健康的競爭。
前景
雖然沒有人知道數(shù)據(jù)領(lǐng)域的未來如何,但有一點很清楚——新技術(shù)將使我們能夠進一步利用我們的數(shù)據(jù)。無論是新技術(shù)和服務(wù)的出現(xiàn),還是現(xiàn)有的功能的增加,開發(fā)人員都將擁有更豐富的工具來構(gòu)建數(shù)據(jù)管道和平臺。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- Commvault持續(xù)業(yè)務(wù)策略:應(yīng)對現(xiàn)代數(shù)據(jù)保護挑戰(zhàn)的新范式
- 2025年網(wǎng)絡(luò)安全主要趨勢
- 2025年值得關(guān)注的數(shù)據(jù)中心可持續(xù)發(fā)展趨勢
- 量子計算火熱,投資者又在大舉尋找“量子概念股”
- 從量子威脅到人工智能防御:2025年網(wǎng)絡(luò)安全將如何發(fā)展
- 后人工智能時代:2025年,在紛擾中重塑數(shù)據(jù)、洞察和行動
- 2025年展望:人工智能推動IT整合
- 量子計算:商業(yè)世界的新前沿與設(shè)計思維的融合
- IDC:三季度全球以太網(wǎng)交換機收入同比下降7.9%、環(huán)比增長6.6%
- Fortinet李宏凱:2025年在中國大陸啟動SASE PoP節(jié)點部署 助力企業(yè)出海
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。