實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)--------------------------------------------------------------------------------------------------------------------------------------------------實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)
實(shí)驗(yàn)?zāi)康?/b>
? ? ? ? ?1.準(zhǔn)確理解MapReduce單表連接的設(shè)計(jì)原理
? ? ? ? ? 2.熟練掌握MapReduce單表連接程序的編寫
? ? ? ? ? 3.了解單表連接的運(yùn)用場(chǎng)景
? ? ? ? ? 4.學(xué)會(huì)編寫MapReduce單表連接程序代碼解決問(wèn)題
實(shí)驗(yàn)原理
? ? ? ? 以本實(shí)驗(yàn)的buyer1(buyer_id,friends_id)表為例來(lái)闡述單表連接的實(shí)驗(yàn)原理。單表連接,連接的是左表的buyer_id列和右表的friends_id列,且左表和右表是同一個(gè)表。因此,在map階段將讀入數(shù)據(jù)分割成buyer_id和friends_id之后,會(huì)將buyer_id設(shè)置成key,friends_id設(shè)置成value,直接輸出并將其作為左表;再將同一對(duì)buyer_id和friends_id中的friends_id設(shè)置成key,buyer_id設(shè)置成value進(jìn)行輸出,作為右表。為了區(qū)分輸出中的左右表,需要在輸出的value中再加上左右表的信息,比如在value的String最開(kāi)始處加上字符1表示左表,加上字符2表示右表。這樣在map的結(jié)果中就形成了左表和右表,然后在shuffle過(guò)程中完成連接。reduce接收到連接的結(jié)果,其中每個(gè)key的value-list就包含了"buyer_idfriends_id--friends_idbuyer_id"關(guān)系。取出每個(gè)key的value-list進(jìn)行解析,將左表中的buyer_id放入一個(gè)數(shù)組,右表中的friends_id放入一個(gè)數(shù)組,然后對(duì)兩個(gè)數(shù)組求笛卡爾積就是最后的結(jié)果了。
實(shí)驗(yàn)環(huán)境
? ? Linux Ubuntu 14.04
? ? jdk-7u75-linux-x64
? ? hadoop-2.6.0-cdh5.4.5
? ? hadoop-2.6.0-eclipse-cdh5.4.5.jar
? ? eclipse-java-juno-SR2-linux-gtk-x86_64
實(shí)驗(yàn)內(nèi)容
? ? ? ? ?現(xiàn)有某電商的用戶好友數(shù)據(jù)文件,名為buyer1,buyer1中包含(buyer_id,friends_id)兩個(gè)字段,內(nèi)容是以"\t"分隔,編寫MapReduce進(jìn)行單表連接,查詢出用戶的間接好友關(guān)系。例如:10001的好友是10002,而10002的好友是10005,那么10001和10005就是間接好友關(guān)系。
實(shí)驗(yàn)步驟
? ? 1.切換到/apps/hadoop/sbin目錄下,開(kāi)啟hadoop
? ? 2.在Linux本地新建/data/mapreduce7目錄。
? ? 3.在Linux中切換到/data/mapreduce7目錄下,用wget命令從http://192.168.15.254:60000/allfiles/mapreduce7/buyer1網(wǎng)址上下載文本文件buyer1。
? ? ? ? 然后在當(dāng)前目錄下用wget命令從http://192.168.15.254:60000/allfiles/mapreduce7/hadoop2lib.tar.gz網(wǎng)址上下載項(xiàng)目用到的依賴包。
? ? ? ? 將hadoop2lib.tar.gz解壓到當(dāng)前目錄下。
? ? 4.首先在hdfs上新建/mymapreduce7/in目錄,然后將Linux本地/data/mapreduce7目錄下的buyer1文件導(dǎo)入到hdfs的/mymapreduce7/in目錄中。
? ? 5.新建Java Project項(xiàng)目,項(xiàng)目名為mapreduce7。
? ? ? ? 在mapreduce7項(xiàng)目里新建包,包名為mapreduce。
? ? ? ? 在mapreduce包下新建類,類名為DanJoin。
? ? 6.添加項(xiàng)目所需依賴的jar包,右鍵單擊mapreduce7,新建一個(gè)文件夾,用于存放項(xiàng)目所需的jar包。
? ? ? ?將/data/mapreduce7目錄下,hadoop2lib目錄中的jar包,拷貝到eclipse中mapreduce7項(xiàng)目的hadoop2lib目錄下。
? ? ? ?選中所有項(xiàng)目hadoop2lib目錄下所有jar包,并添加到Build Path中。
? ? ?Map處理的是一個(gè)純文本文件,Mapper處理的數(shù)據(jù)是由InputFormat將數(shù)據(jù)集切分成小的數(shù)據(jù)集InputSplit,并用RecordReader解析成對(duì)提供給map函數(shù)使用。map函數(shù)中用split("\t")方法把每行數(shù)據(jù)進(jìn)行截取,并把數(shù)據(jù)存入到數(shù)組arr[],把a(bǔ)rr[0]賦值給mapkey,arr[1]賦值給mapvalue。用兩個(gè)context的write()方法把數(shù)據(jù)輸出兩份,再通過(guò)標(biāo)識(shí)符relationtype為1或2對(duì)兩份輸出數(shù)據(jù)的value打標(biāo)記。
? ? ? reduce端在接收map端傳來(lái)的數(shù)據(jù)時(shí)已經(jīng)把相同key的所有value都放到一個(gè)Iterator容器中values。reduce函數(shù)中,首先新建兩數(shù)組buyer[]和friends[]用來(lái)存放map端的兩份輸出數(shù)據(jù)。然后Iterator迭代中hasNext()和Next()方法加while循環(huán)遍歷輸出values的值并賦值給record,用charAt(0)方法獲取record第一個(gè)字符賦值給relationtype,用if判斷如果relationtype為1則把用substring(2)方法從下標(biāo)為2開(kāi)始截取record將其存放到buyer[]中,如果relationtype為2時(shí)將截取的數(shù)據(jù)放到frindes[]數(shù)組中。然后用三個(gè)for循環(huán)嵌套遍歷輸出,其中key=buyer[m],value=friends[n]。
? ? main 函數(shù):
? ? 8.在DanJoin類文件中,右鍵并點(diǎn)擊=>Run As=>Run on Hadoop選項(xiàng),將MapReduce任務(wù)提交到Hadoop中。
? ? 9.待執(zhí)行完畢后,進(jìn)入命令模式下,在hdfs上從Java代碼指定的輸出路徑中查看實(shí)驗(yàn)結(jié)果。
? ? ? ?實(shí)驗(yàn)結(jié)果為:
實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)--------------------------------------------------------------------------------------------------------------------------------------------------實(shí)驗(yàn)來(lái)自章魚大數(shù)據(jù)