1,安裝anaconda3,可以參考我之前的文檔
2,安裝配置JDK
下載地址
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
我下載的jdk-8u251-windows-x64.exe安裝文件,雙擊打開,一路下一步直到完成。
右鍵“此電腦”--> “屬性” --> “高級系統(tǒng)設置”-->“環(huán)境變量”
新建一個JAVA_HOME變量
在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin
3,安裝配置scala
下載地址
https://www.scala-lang.org/download/
我下載的scala-2.11.6.msi安裝文件,雙擊打開一路下一步就完成了,然后配置環(huán)境變量
新建變量SCALA_HOME
path中加入%SCALA_HOME%\bin
4,安裝配置spark
下載地址
http://spark.apache.org/downloads.html
下載好之后解壓到本地
系統(tǒng)變量中新建SPARK_HOME,path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin
5,配置pyspark
上一步解壓的spark目錄E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip,右鍵選擇加壓到當前文件夾,然后將解壓出來的兩個文件夾剪切到anaconda安裝目錄下面的Lib/site-packages目錄下
6,配置Hadoop環(huán)境
下載hadoop-common-2.6.0-bin-master.zip 解壓到本地,然后在環(huán)境變量中添加HADOOP_HOME
鏈接:https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
提取碼:4kn5
7,pyspark環(huán)境驗證
win + R,然后輸入cmd回車,然后輸入pyspark
list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
mapRdd = rdd.map(lambda word : (word,1))
reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
reduceRdd.collect()
運行正常,說明pyspark環(huán)境已經(jīng)搭建完成。