精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<cite id="jre5q"><table id="jre5q"></table></cite>

^{<dl id="jre5q"></dl>}

<dd id="jre5q"></dd>

首頁(yè)
熱搜
人物
明星
媒體
友推
快訊

供應(yīng)商
小紅書
回首頁(yè)

資訊
極客熱點(diǎn)
企業(yè)動(dòng)態(tài)
友推福利
友媒專區(qū)

軟件
PC軟件
移動(dòng)APP
操作系統(tǒng)
工業(yè)軟件

酷玩
手機(jī)數(shù)碼
明星腕表
極客游戲
智能汽車
時(shí)尚輕奢

創(chuàng)業(yè)
創(chuàng)業(yè)頭條
創(chuàng)業(yè)學(xué)院
項(xiàng)目招商
工作機(jī)會(huì)
兼職副業(yè)

極客網(wǎng) > 每日熱讀 >

大數(shù)據(jù)未來(lái)是什么？Spark會(huì)宣布Hadoop“死刑”？

人閱讀
2015-12-18 00:00:00
相關(guān)關(guān)鍵詞
- Hadoop
- Spark

說(shuō)到大數(shù)據(jù)，很多人都會(huì)提及Hadoop 與 Apache Spark。Hadoop解決了大數(shù)據(jù)的可靠存儲(chǔ)和處理問(wèn)題。但因?yàn)槠浔旧淼墓ぷ髁鞒桃话逡谎郏簧瞄L(zhǎng)靜態(tài)存儲(chǔ)對(duì)象的批式處理，有自身的局限和不足。Spark應(yīng)運(yùn)而生，受到追捧，甚至被認(rèn)為是大數(shù)據(jù)的未來(lái)，將會(huì)替代Hadoop。

所以在這里簡(jiǎn)要總結(jié)下各自的優(yōu)劣勢(shì)，并從五個(gè)方面比較二者的區(qū)別?？纯碨park是否能宣布Hadoop的“死刑”？

Hadoop和ApacheSpark雖然都是大數(shù)據(jù)框架，但他們并不真正服務(wù)于同樣的目的。 Hadoop是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施：可以支持一個(gè)或多個(gè)服務(wù)器，在集群內(nèi)跨多個(gè)節(jié)點(diǎn)，分配大量數(shù)據(jù)集合。這意味著如果你要處理大數(shù)據(jù)，有了它就足以解決大數(shù)據(jù)的存儲(chǔ)和處理問(wèn)題，不需要購(gòu)買昂貴的定制化硬件及維護(hù)服務(wù)了。它還也可以索引和跟蹤數(shù)據(jù)，使大數(shù)據(jù)處理和分析更有效。另一方面，Spark是一個(gè)數(shù)據(jù)處理工具，可以做分布式數(shù)據(jù)收集，但不能做分布式存儲(chǔ)。

Hadoop不僅是個(gè)存儲(chǔ)組件，還包括Hadoop分布式文件系統(tǒng)和被稱作MapReduce的處理組件。所以，人家自身功能很多，你不一定非要用Spark配合。相反地，不搭建在Hadoop上，也可以單獨(dú)使用Spark。但是，由于Spark不自帶文件管理系統(tǒng)，還得結(jié)合HDFS或者基于云的數(shù)據(jù)平臺(tái)。其實(shí)，Spark是專為完善Hadoop而生，因此有人認(rèn)為在未來(lái)會(huì)替代Hadoop。但是，大部分人目前通常是采用二者配合來(lái)做的方式搭建，更希望二者可以協(xié)作起來(lái)，更好地發(fā)揮各自的效用。

Spark通常比MapReduce快得多，因?yàn)樘幚頂?shù)據(jù)的方式不一樣。在MapReduce按部就班的處理時(shí)，Spark可以對(duì)整個(gè)數(shù)據(jù)集中處理。有數(shù)據(jù)科學(xué)家這樣形容MapReduce的工作流程：從集群讀取數(shù)據(jù)——執(zhí)行一個(gè)操作——將結(jié)果寫入集群——從集群中讀取更新的數(shù)據(jù)——執(zhí)行下一步操作——寫未來(lái)結(jié)果到集群……” 另一方面，Spark是基于內(nèi)存計(jì)算，在完成完整的數(shù)據(jù)分析操作上，也是接近實(shí)時(shí)處理的。它的工作流程可以這樣形容：從集群中讀取數(shù)據(jù)——執(zhí)行所有必要的分析操作——將結(jié)果寫入集群，完成。Spark比MapReduce在批處理上速度快得高達(dá)10倍，基于內(nèi)存計(jì)算分析上快100倍。

如果數(shù)據(jù)操作和報(bào)告需求大多是靜態(tài)的， MapReduce的處理風(fēng)格完全可以勝任了，你只需耐心等待它的批處理模式來(lái)做就行。但是，如果你需要對(duì)流數(shù)據(jù)做分析，比如工廠里的傳感器數(shù)據(jù)，或要處理多個(gè)操作的應(yīng)用程序，這種情況選擇Spark更合適。例如，大多數(shù)機(jī)器學(xué)習(xí)算法需要多個(gè)操作。 Spark常見的應(yīng)用場(chǎng)景還有：實(shí)時(shí)營(yíng)銷活動(dòng)、在線產(chǎn)品推薦、網(wǎng)絡(luò)安全分析和機(jī)器的日志監(jiān)控等。

Hadoop對(duì)系統(tǒng)故障具備天然抵抗力，因?yàn)樯衔乃f(shuō)的，它的工作流程非常穩(wěn)扎穩(wěn)打：在執(zhí)行每個(gè)操作后都會(huì)把數(shù)據(jù)寫入磁盤，自然便于恢復(fù)。而Spark，采用類似的方式，具有內(nèi)置彈性。具體來(lái)說(shuō)，其數(shù)據(jù)對(duì)象存儲(chǔ)在集群數(shù)據(jù)里的，彈性分布式數(shù)據(jù)集上（即RDD，Spark的核心。它具備像MapReduce等數(shù)據(jù)流模型的容錯(cuò)特性，并且允許開發(fā)人員在大型集群上執(zhí)行基于內(nèi)存的計(jì)算）。這些數(shù)據(jù)對(duì)象可以存儲(chǔ)在內(nèi)存或磁盤上，當(dāng)系統(tǒng)報(bào)錯(cuò)時(shí)候，RDD可以幫助全面恢復(fù)。

綜上所說(shuō)，可以看出，二者各有千秋，場(chǎng)景不同所選方案就會(huì)不同。不過(guò)，大多數(shù)人更愿意看到1+1>2的效果。

注：文章翻譯自cio網(wǎng)站，作者Katherine Noyes。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2015-12-18

大數(shù)據(jù)未來(lái)是什么？Spark會(huì)宣布Hadoop“死刑”？

說(shuō)到大數(shù)據(jù)，很多人都會(huì)提及Hadoop 與 Apache Spark。Hadoop解決了大數(shù)據(jù)的可靠存儲(chǔ)和處理問(wèn)題。但因?yàn)槠浔旧淼墓ぷ髁鞒桃话逡谎郏簧?

長(zhǎng)按掃碼閱讀全文