云計(jì)算與大數(shù)據(jù)-------Mapreduce實(shí)例---單表join

單表join

實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)--------------------------------------------------------------------------------------------------------------------------------------------------實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)

實(shí)驗(yàn)?zāi)康?/b>

? ? ? ? ?1.準(zhǔn)確理解MapReduce單表連接的設(shè)計(jì)原理

? ? ? ? ? 2.熟練掌握MapReduce單表連接程序的編寫

? ? ? ? ? 3.了解單表連接的運(yùn)用場(chǎng)景

? ? ? ? ? 4.學(xué)會(huì)編寫MapReduce單表連接程序代碼解決問(wèn)題

實(shí)驗(yàn)原理

? ? ? ? 以本實(shí)驗(yàn)的buyer1(buyer_id,friends_id)表為例來(lái)闡述單表連接的實(shí)驗(yàn)原理。單表連接,連接的是左表的buyer_id列和右表的friends_id列,且左表和右表是同一個(gè)表。因此,在map階段將讀入數(shù)據(jù)分割成buyer_id和friends_id之后,會(huì)將buyer_id設(shè)置成key,friends_id設(shè)置成value,直接輸出并將其作為左表;再將同一對(duì)buyer_id和friends_id中的friends_id設(shè)置成key,buyer_id設(shè)置成value進(jìn)行輸出,作為右表。為了區(qū)分輸出中的左右表,需要在輸出的value中再加上左右表的信息,比如在value的String最開(kāi)始處加上字符1表示左表,加上字符2表示右表。這樣在map的結(jié)果中就形成了左表和右表,然后在shuffle過(guò)程中完成連接。reduce接收到連接的結(jié)果,其中每個(gè)key的value-list就包含了"buyer_idfriends_id--friends_idbuyer_id"關(guān)系。取出每個(gè)key的value-list進(jìn)行解析,將左表中的buyer_id放入一個(gè)數(shù)組,右表中的friends_id放入一個(gè)數(shù)組,然后對(duì)兩個(gè)數(shù)組求笛卡爾積就是最后的結(jié)果了。


實(shí)驗(yàn)環(huán)境

? ? Linux Ubuntu 14.04

? ? jdk-7u75-linux-x64

? ? hadoop-2.6.0-cdh5.4.5

? ? hadoop-2.6.0-eclipse-cdh5.4.5.jar

? ? eclipse-java-juno-SR2-linux-gtk-x86_64

實(shí)驗(yàn)內(nèi)容

? ? ? ? ?現(xiàn)有某電商的用戶好友數(shù)據(jù)文件,名為buyer1,buyer1中包含(buyer_id,friends_id)兩個(gè)字段,內(nèi)容是以"\t"分隔,編寫MapReduce進(jìn)行單表連接,查詢出用戶的間接好友關(guān)系。例如:10001的好友是10002,而10002的好友是10005,那么10001和10005就是間接好友關(guān)系。


實(shí)驗(yàn)步驟

? ? 1.切換到/apps/hadoop/sbin目錄下,開(kāi)啟hadoop

? ? 2.在Linux本地新建/data/mapreduce7目錄。

? ? 3.在Linux中切換到/data/mapreduce7目錄下,用wget命令從http://192.168.15.254:60000/allfiles/mapreduce7/buyer1網(wǎng)址上下載文本文件buyer1

? ? ? ? 然后在當(dāng)前目錄下用wget命令從http://192.168.15.254:60000/allfiles/mapreduce7/hadoop2lib.tar.gz網(wǎng)址上下載項(xiàng)目用到的依賴包。

? ? ? ? 將hadoop2lib.tar.gz解壓到當(dāng)前目錄下。

? ? 4.首先在hdfs上新建/mymapreduce7/in目錄,然后將Linux本地/data/mapreduce7目錄下的buyer1文件導(dǎo)入到hdfs的/mymapreduce7/in目錄中。


1--3步


1----3步

? ? 5.新建Java Project項(xiàng)目,項(xiàng)目名為mapreduce7。

? ? ? ? 在mapreduce7項(xiàng)目里新建包,包名為mapreduce。

? ? ? ? 在mapreduce包下新建類,類名為DanJoin。

? ? 6.添加項(xiàng)目所需依賴的jar包,右鍵單擊mapreduce7,新建一個(gè)文件夾,用于存放項(xiàng)目所需的jar包。

? ? ? ?將/data/mapreduce7目錄下,hadoop2lib目錄中的jar包,拷貝到eclipse中mapreduce7項(xiàng)目的hadoop2lib目錄下。

? ? ? ?選中所有項(xiàng)目hadoop2lib目錄下所有jar包,并添加到Build Path中。


Map

? ? ?Map處理的是一個(gè)純文本文件,Mapper處理的數(shù)據(jù)是由InputFormat將數(shù)據(jù)集切分成小的數(shù)據(jù)集InputSplit,并用RecordReader解析成對(duì)提供給map函數(shù)使用。map函數(shù)中用split("\t")方法把每行數(shù)據(jù)進(jìn)行截取,并把數(shù)據(jù)存入到數(shù)組arr[],把a(bǔ)rr[0]賦值給mapkey,arr[1]賦值給mapvalue。用兩個(gè)context的write()方法把數(shù)據(jù)輸出兩份,再通過(guò)標(biāo)識(shí)符relationtype為1或2對(duì)兩份輸出數(shù)據(jù)的value打標(biāo)記。



Ruduce


Reduce

? ? ? reduce端在接收map端傳來(lái)的數(shù)據(jù)時(shí)已經(jīng)把相同key的所有value都放到一個(gè)Iterator容器中values。reduce函數(shù)中,首先新建兩數(shù)組buyer[]和friends[]用來(lái)存放map端的兩份輸出數(shù)據(jù)。然后Iterator迭代中hasNext()和Next()方法加while循環(huán)遍歷輸出values的值并賦值給record,用charAt(0)方法獲取record第一個(gè)字符賦值給relationtype,用if判斷如果relationtype為1則把用substring(2)方法從下標(biāo)為2開(kāi)始截取record將其存放到buyer[]中,如果relationtype為2時(shí)將截取的數(shù)據(jù)放到frindes[]數(shù)組中。然后用三個(gè)for循環(huán)嵌套遍歷輸出,其中key=buyer[m],value=friends[n]。

? ? main 函數(shù):


main

? ? 8.在DanJoin類文件中,右鍵并點(diǎn)擊=>Run As=>Run on Hadoop選項(xiàng),將MapReduce任務(wù)提交到Hadoop中。


? ? 9.待執(zhí)行完畢后,進(jìn)入命令模式下,在hdfs上從Java代碼指定的輸出路徑中查看實(shí)驗(yàn)結(jié)果。

? ? ? ?實(shí)驗(yàn)結(jié)果為:


實(shí)驗(yàn)最終結(jié)果

實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)--------------------------------------------------------------------------------------------------------------------------------------------------實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,716評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開(kāi)封第一講書人閱讀 178,746評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 63,991評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,706評(píng)論 6 413
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 56,036評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,725評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,451評(píng)論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,677評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,857評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 35,266評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 36,606評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,407評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,643評(píng)論 2 380