精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

初識(shí)MapReduce的應(yīng)用場景（附JAVA和Python代碼）

人閱讀
2019-03-01 08:34:00
相關(guān)關(guān)鍵詞
- 人工智能
- AI

從這篇文章開始，我會(huì)開始系統(tǒng)性地輸出在大數(shù)據(jù)踩坑過程中的積累，后面會(huì)涉及到實(shí)戰(zhàn)項(xiàng)目的具體操作，目前的規(guī)劃是按照系列來更新，力爭做到一個(gè)系列在5篇文章之內(nèi)總結(jié)出最核心的干貨，如果是涉及到理論方面的文章，會(huì)以畫圖的方式來講解，如果是涉及到操作方面，會(huì)以實(shí)際的代碼來演示。

這篇是MapReduce系列的第一篇，初識(shí)MapReduce的應(yīng)用場景，在文章后面會(huì)有關(guān)于代碼的演示。

Hadoop作為Apache旗下的一個(gè)以Java語言實(shí)現(xiàn)的分布式計(jì)算開源框架，其由兩個(gè)部分組成，一個(gè)是分布式的文件系統(tǒng)HDFS，另一個(gè)是批處理計(jì)算框架MapReduce。這篇文章作為MapReduce系列的第一篇文章，會(huì)從MapReduce的產(chǎn)生背景、框架的計(jì)算流程、應(yīng)用場景和演示Demo來講解，主要是讓大家對(duì)MapReduce的這個(gè)批計(jì)算框架有個(gè)初步的了解及簡單的部署和使用。

目錄

MapReduce的產(chǎn)生背景

MapReduce的計(jì)算流程

MapReduce的框架架構(gòu)

MapReduce的生命周期

應(yīng)用場景

演示Demo

MapReduce的產(chǎn)生背景

Google 在2004年的時(shí)候在 MapReduce： Simplified Data Processing on Large Clusters 這篇論文中提出了MapReduce 的功能特性和設(shè)計(jì)理念，設(shè)計(jì)MapReduce 的出發(fā)點(diǎn)就是為了解決如何把大問題分解成獨(dú)立的小問題，再并行解決。例如，MapReduce的經(jīng)典使用場景之一就是對(duì)一篇長文進(jìn)行詞頻統(tǒng)計(jì)，統(tǒng)計(jì)過程就是先把文章分為一句一句，然后進(jìn)行分割，最后進(jìn)行詞的數(shù)量統(tǒng)計(jì)。

MapReduce的架構(gòu)圖

MapReduce的架構(gòu)圖

這里的Client和TaskTracker我都使用一個(gè)來簡化了，在實(shí)際中是會(huì)有很個(gè)Client和TaskTracker的。

我們來講解下不同的組件作用

Client

Client的含義是指用戶使用MapReduce程序通過Client來提交任務(wù)到Job Tracker上，同時(shí)用戶也可以使用Client來查看一些作業(yè)的運(yùn)行狀態(tài)。

Job Tracker

這個(gè)負(fù)責(zé)的是資源監(jiān)控和作業(yè)調(diào)度。JobTracker會(huì)監(jiān)控著TaskTracker和作業(yè)的健康狀況，會(huì)把失敗的任務(wù)轉(zhuǎn)移到其他節(jié)點(diǎn)上，同時(shí)也監(jiān)控著任務(wù)的執(zhí)行進(jìn)度、資源使用量等情況，會(huì)把這些消息通知任務(wù)調(diào)度器，而調(diào)度器會(huì)在資源空閑的時(shí)候選擇合適的任務(wù)來使用這些資源。

任務(wù)調(diào)度器是一個(gè)可插拔的模塊，用戶可以根據(jù)自己的需要來設(shè)計(jì)相對(duì)應(yīng)的調(diào)度器。

TaskTracker

TaskTracker會(huì)周期性地通過Hearbeat來向Job Tracker匯報(bào)自己的資源使用情況和任務(wù)的運(yùn)行進(jìn)度。會(huì)接受來自于JobTaskcker的指令來執(zhí)行操作（例如啟動(dòng)新任務(wù)、殺死任務(wù)之類的）。

在TaskTracker中通過的是slot來進(jìn)行等量劃分一個(gè)節(jié)點(diǎn)上資源量，只用Task獲得slot的時(shí)候才有機(jī)會(huì)去運(yùn)行。調(diào)度器的作用就是進(jìn)行將空閑的slot分配給Task使用，可以配置slot的數(shù)量來進(jìn)行限定Task上的并發(fā)度。

Task

Task分為Map Task和Reduce Task，在MapReduce中的 split 就是一個(gè) Map Task，split 的大小可以設(shè)置的，由 mapred．max．spilt．size 參數(shù)來設(shè)置，默認(rèn)是 Hadoop中的block的大小，在Hadoop 2．x中默認(rèn)是128M，在Hadoop 1．x中默認(rèn)是64M。

在Task中的設(shè)置可以這么設(shè)置，一般來講，會(huì)把一個(gè)文件設(shè)置為一個(gè)split，如果是小文件，那么就會(huì)存在很多的Map Task，這是特別浪費(fèi)資源的，如果split切割的數(shù)據(jù)塊的量大，那么會(huì)導(dǎo)致跨節(jié)點(diǎn)去獲取數(shù)據(jù)，這樣也是消耗很多的系統(tǒng)資源的。

MapReduce的生命周期

MapReduce的生命周期

一共分為5個(gè)步驟：

作業(yè)的提交和初始化

由用戶提交作業(yè)之前，需要先把文件上傳到HDFS上，JobClient使用upload來加載關(guān)于打包好的jar包，JobClient會(huì)RPC創(chuàng)建一個(gè)JobInProcess來進(jìn)行管理任務(wù)，并且創(chuàng)建一個(gè)TaskProcess來管理控制關(guān)于每一個(gè)Task。

JobTracker調(diào)度任務(wù)

JobTracker會(huì)調(diào)度和管理任務(wù)，一發(fā)現(xiàn)有空閑資源，會(huì)按照一個(gè)策略選擇一個(gè)合適的任務(wù)來使用該資源。

任務(wù)調(diào)度器有兩個(gè)點(diǎn)：一個(gè)是保證作業(yè)的順利運(yùn)行，如果有失敗的任務(wù)時(shí)，會(huì)轉(zhuǎn)移計(jì)算任務(wù)，另一個(gè)是如果某一個(gè)Task的計(jì)算結(jié)果落后于同一個(gè)Task的計(jì)算結(jié)果時(shí)，會(huì)啟動(dòng)另一個(gè)Task來做計(jì)算，最后去計(jì)算結(jié)果最塊的那個(gè)。

任務(wù)運(yùn)行環(huán)境

TaskTracker會(huì)為每一個(gè)Task來準(zhǔn)備一個(gè)獨(dú)立的JVM從而避免不同的Task在運(yùn)行過程中的一些影響，同時(shí)也使用了操作系統(tǒng)來實(shí)現(xiàn)資源隔離防止Task濫用資源。

執(zhí)行任務(wù)

每個(gè)Task的任務(wù)進(jìn)度通過RPC來匯報(bào)給TaskTracker，再由TaskTracker匯報(bào)給JobTracker。

任務(wù)結(jié)束，寫入輸出的文件到HDFS中。

MapReduce 的計(jì)算流程

先來看一張圖，系統(tǒng)地了解下 MapReduce 的運(yùn)算流程。

MapReduce的運(yùn)算流程

為了方便大家理解，重新畫了一張新的圖，演示的是關(guān)于如何進(jìn)行把一個(gè)長句進(jìn)行分割，最后進(jìn)行詞頻的統(tǒng)計(jì)（已忽略掉標(biāo)點(diǎn)符號(hào)）。

簡單的實(shí)操例子

整個(gè)過程就是先讀取文件，接著進(jìn)行split切割，變成一個(gè)一個(gè)的詞，然后進(jìn)行 map task 任務(wù)，排列出所有詞的統(tǒng)計(jì)量，接著 sorting 排序，按照字典序來排，接著就是進(jìn)行 reduce task，進(jìn)行了詞頻的匯總，最后一步就是輸出為文件。例如圖中的 spacedong 就出現(xiàn)了兩次。

其中對(duì)應(yīng)著的是 Hadoop Mapreduce 對(duì)外提供的五個(gè)可編程組件，分別是InputFormat、Mapper、Partitioner、Reduce和OutputFormat，后續(xù)的文章會(huì)詳細(xì)講解這幾個(gè)組件。

用一句話簡單地總結(jié)就是，Mapreduce的運(yùn)算過程就是進(jìn)行拆解－排序－匯總，解決的就是統(tǒng)計(jì)的問題，使用的思想就是分治的思想。

MapReduce的應(yīng)用場景

MapReduce 的產(chǎn)生是為了把某些大的問題分解成小的問題，然后解決小問題后，大問題也就解決了。那么一般有什么樣的場景會(huì)運(yùn)用到這個(gè)呢？那可多了去，簡單地列舉幾個(gè)經(jīng)典的場景。

計(jì)算URL的訪問頻率

搜索引擎的使用中，會(huì)遇到大量的URL的訪問，所以，可以使用 MapReduce 來進(jìn)行統(tǒng)計(jì)，得出（URL，次數(shù)）結(jié)果，在后續(xù)的分析中可以使用。

倒排索引

Map 函數(shù)去分析文件格式是（詞，文檔號(hào)）的列表，Reduce 函數(shù)就分析這個(gè)（詞，文檔號(hào)），排序所有的文檔號(hào)，輸出（詞，list（文檔號(hào)）），這個(gè)就可以形成一個(gè)簡單的倒排索引，是一種簡單的算法跟蹤詞在文檔中的位置。

Top K 問題

在各種的文檔分析，或者是不同的場景中，經(jīng)常會(huì)遇到關(guān)于 Top K 的問題，例如輸出這篇文章的出現(xiàn)前5個(gè)最多的詞匯。這個(gè)時(shí)候也可以使用 MapReduce來進(jìn)行統(tǒng)計(jì)。

演示Demo

今天的代碼演示從Python和Java兩個(gè)版本的演示，Python版本的話便是不使用封裝的包，Java版本的話則是使用了Hadoop的封裝包。接下來便進(jìn)行演示一個(gè)MapReduce的簡單使用，如何進(jìn)行詞匯統(tǒng)計(jì)。

12下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 百度AI 科大訊飛AI學(xué)習(xí)機(jī) AI手機(jī) CAICT 阿爾法蛋AI詞典筆T10 微軟AI 華為AI AI+ 松鼠AI AI模型昇騰AI創(chuàng)新大賽 AIS Airdoc WAIC 智譜AI xAI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人 AI應(yīng)用人工智能大會(huì) AI眼鏡 AI算力 AI創(chuàng)企移動(dòng)AI時(shí)代 AI醫(yī)療浙大AIF 人工智能技術(shù) Zain AI人才 Airtag 人工智能芯片 AI服務(wù)器 AI時(shí)代騰訊AI AI算法 BrainCo AI投資 AI框架聯(lián)想AI Gmail 人工智能計(jì)算中心 VAIO AI賦能人工智能大賽 Chain AI教育 Coremail AI搜索 Airwallex空中云匯 OPENAIGC開發(fā)者大賽谷歌人工智能 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 Mirai 人工智能名片人工智能機(jī)器人 AI基礎(chǔ)設(shè)施 AI聊天機(jī)器人阿里AI AI音樂 BrainCo強(qiáng)腦科技通用人工智能人工智能+ AI計(jì)算英偉達(dá)AI芯片 AI助手 AIOps

上一篇

機(jī)器人時(shí)代來臨，高管需如何備戰(zhàn)

下一篇

優(yōu)步擬以30億美元收購其中東最大競爭對(duì)手Careem

簡版
原版
投稿
回頂部

2019-03-01

初識(shí)MapReduce的應(yīng)用場景（附JAVA和Python代碼）

從這篇文章開始，我會(huì)開始系統(tǒng)性地輸出在大數(shù)據(jù)踩坑過程中的積累，后面會(huì)涉及到實(shí)戰(zhàn)項(xiàng)目的具體操作，目前的規(guī)劃是按照系列來更新，力爭做到一個(gè)系列在5篇文章之內(nèi)總結(jié)出最核心的干貨，如果是涉及到理論方面的文章，

長按掃碼閱讀全文