在Windows上搭建pyspark環(huán)境

1,安裝anaconda3,可以參考我之前的文檔

win10安裝anaconda

2,安裝配置JDK

下載地址
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
我下載的jdk-8u251-windows-x64.exe安裝文件,雙擊打開,一路下一步直到完成。
右鍵“此電腦”--> “屬性” --> “高級系統(tǒng)設置”-->“環(huán)境變量”
新建一個JAVA_HOME變量
在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

image.png

image.png

3,安裝配置scala

下載地址
https://www.scala-lang.org/download/
我下載的scala-2.11.6.msi安裝文件,雙擊打開一路下一步就完成了,然后配置環(huán)境變量

新建變量SCALA_HOME
path中加入%SCALA_HOME%\bin
image.png

image.png

4,安裝配置spark

下載地址
http://spark.apache.org/downloads.html

image.png

下載好之后解壓到本地


image.png

系統(tǒng)變量中新建SPARK_HOME,path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin


image.png

image.png

5,配置pyspark

上一步解壓的spark目錄E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip,右鍵選擇加壓到當前文件夾,然后將解壓出來的兩個文件夾剪切到anaconda安裝目錄下面的Lib/site-packages目錄下


image.png

image.png

image.png

6,配置Hadoop環(huán)境

下載hadoop-common-2.6.0-bin-master.zip 解壓到本地,然后在環(huán)境變量中添加HADOOP_HOME
鏈接:https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
提取碼:4kn5

image.png

7,pyspark環(huán)境驗證

win + R,然后輸入cmd回車,然后輸入pyspark


image.png

image.png
list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
mapRdd = rdd.map(lambda word : (word,1))
reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
reduceRdd.collect()

運行正常,說明pyspark環(huán)境已經(jīng)搭建完成。


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。