精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<blockquote id="6h6bx"><legend id="6h6bx"></legend></blockquote>

直播
榜單
7x24h快訊

極客網(wǎng) > 極客焦點 >

淺析英特爾大數(shù)據(jù)解決方案（上）

人閱讀
2012-12-03 22:03:09
來源：硅谷動力
相關(guān)關(guān)鍵詞
- 英特爾
- 大數(shù)據(jù)

不管大數(shù)據(jù)時代是否真的來臨了，大數(shù)據(jù)這個概念確實實實在在的頗受關(guān)注，IT廠商也紛紛布局大數(shù)據(jù)，推出各自的大數(shù)據(jù)解決方案，本文中，筆者將對英特爾的大數(shù)據(jù)解決方案英特爾Hadoop發(fā)行版進(jìn)行簡單分析，但求拋磚引玉。

英特爾提供的Hadoop發(fā)行版包含Hadoop分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式計算框架MapReduce、數(shù)據(jù)倉庫Hive、數(shù)據(jù)處理Pig、機(jī)器學(xué)習(xí)Mahout商業(yè)套件。

其中，Hadoop 分布式文件系統(tǒng)（HDFS）是運行在通用硬件上的分布式文件系統(tǒng)。HDFS提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。它具備：

1）高吞吐量訪問，HDFS 的每個數(shù)據(jù)塊分布在不同機(jī)架的一組服務(wù)器之上，在用戶訪問時，HDFS將會計算使用網(wǎng)絡(luò)最近的和訪問量最小的服務(wù)器給用戶提供訪問，這大大增加了服務(wù)器的數(shù)據(jù)吞吐量。

2）無縫容量擴(kuò)充，HDFS 將文件的數(shù)據(jù)塊分配信息存放在NameNode服務(wù)器之上，文件數(shù)據(jù)塊的信息分布地存放在DataNode 服務(wù)器上。當(dāng)整個系統(tǒng)容量需要擴(kuò)充時，只需要增加DataNode 的數(shù)量，系統(tǒng)會自動地實時將新的服務(wù)器匹配進(jìn)整體陣列之中。

3）高度容錯，數(shù)據(jù)在寫入時被復(fù)制多份，并且可以通過用戶自定義的復(fù)制策略分布到物理位置不同的服務(wù)器上；數(shù)據(jù)在讀寫時將自動進(jìn)行數(shù)據(jù)的校驗，一旦發(fā)現(xiàn)數(shù)據(jù)校驗錯誤將重新進(jìn)行復(fù)制。

HBase是一個面向列的實時分布式數(shù)據(jù)庫。HBase不是一個關(guān)系型數(shù)據(jù)庫，其設(shè)計目標(biāo)是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的理論和實現(xiàn)上的局限性。HBase從一開始就是為Terabyte到Petabyte級別的海量數(shù)據(jù)存儲和高速讀寫而設(shè)計，這些數(shù)據(jù)要求能夠被分布在數(shù)千臺普通服務(wù)器上，并且能夠被大量并發(fā)用戶高速訪問。HBase具備三大特點：

1）高可擴(kuò)展性，讓企業(yè)在擴(kuò)大系統(tǒng)容量時而無需停機(jī)，只需簡單的增加服務(wù)器。

2）高性能，數(shù)據(jù)被分散存儲，訪問請求也分散在不同的服務(wù)器，增強了總體訪問能力。

3）高可用性，HDFS上的數(shù)據(jù)和日志支持HBase的數(shù)據(jù)自動恢復(fù)。

MapReduce是一個高性能的批處理分布式計算框架，用于對海量數(shù)據(jù)進(jìn)行并行分析和處理。MapReduce適合處理各種類型的數(shù)據(jù)，包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

MapReduce對于復(fù)雜的數(shù)據(jù)（例如：多媒體數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù) 據(jù)、實時數(shù)據(jù)、傳感器數(shù)據(jù)等）、超大規(guī)模數(shù)據(jù)運用新的算法（例如，自然語言分析、模式識別）分析。

Hive是一種建立在Hadoop之上的數(shù)據(jù)倉庫架構(gòu)。它采用HDFS進(jìn)行數(shù)據(jù)存儲并利用MapReduce 框架進(jìn)行數(shù)據(jù)操作。所以從本質(zhì)上來說，Hive就是個編譯器，它把用戶的操作（查詢或者ETL）變換成MapReduce任務(wù)，利用MapReduce框架執(zhí)行這些任務(wù)以對HDFS上的海量數(shù)據(jù)進(jìn)行處理。它具備針對海量數(shù)據(jù)的高性能查詢和分析系統(tǒng)和類SQL的查詢語言HiveQL.

Pig是一個基于Hadoop并運用MapReduce和HDFS 實現(xiàn)大規(guī)模數(shù)據(jù)分析的平臺。它為海量數(shù)據(jù)的并行處理提供了操作以及編程實現(xiàn)的接口。

Pig的編程語言為Pig Latin,該語言有如下特點：

1）易于編程：既具有類似SQL的靈活可變性，又有過程式語言的數(shù)據(jù)流特點。

2）優(yōu)化策略：系統(tǒng)具備自動優(yōu)化執(zhí)行過程的能力，使得用戶更加關(guān)注于語義。

3）可擴(kuò)展性：用戶可以自行設(shè)計函數(shù)來實現(xiàn)特定功能。

Mahout是一套具有可擴(kuò)充能力的機(jī)器學(xué)習(xí)類庫。它提供機(jī)器學(xué)習(xí)框架的同時，還實現(xiàn)了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn)，可以幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。通過和Apache Hadoop分布式框架相結(jié)合，Mahout可以有效地使用分布式系統(tǒng)來實現(xiàn)高性能計算。

Mahout提供了推薦引擎算法、聚類算法、分類算法、相關(guān)物品分析算法4種使用場景的算法。

極客網(wǎng)企業(yè)會員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

人民日報“晚安短信計劃”關(guān)注電商西進(jìn)：拼多多新農(nóng)人傳遞溫暖

晚安短信計劃電商西進(jìn) 拼多多新農(nóng)人拼多多

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2012-12-03

淺析英特爾大數(shù)據(jù)解決方案（上）

不管大數(shù)據(jù)時代是否真的來臨了，大數(shù)據(jù)這個概念確實實實在在的頗受關(guān)注，IT廠商也紛紛布局大數(shù)據(jù)，推出各自的大數(shù)據(jù)解決方案，本文中，筆者

長按掃碼閱讀全文

<b id="tc4jb"><legend id="tc4jb"></legend></b>

<strike id="tc4jb"><label id="tc4jb"></label></strike>