參考教程:http://www.bijishequ.com/detail/384683?p=58
配置原因:在pyspark命令行 練習比較麻煩,不能自動補全,浪費時間。Jupyter notebook 是最理想的,但是還沒配置成功。
1.打開pycharm,新建一個工程
2.點擊 run --Edit Configuration..
3.配置
3.1 新建 Python ,起個名
3.2 配置script,指向你要引用 spark 的那個文件
3.3 Enviroment variables:
PYSPARK_PYTHON; 指向 你本機 的 python 路徑
PYTHONPATH:指向 spark 安裝目錄的 Python 文件夾
SPARK_HOME :指向 spark 安裝目錄
4.安裝 py4j
sudo pip3 install py4j
5.看到網上很多教程,一般都只執行到第四步即可,但是我仍然無法導入 pyspark 包,還需要下面的步驟:
選擇 File--->setting--->你的project--->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下)
6.測試程序
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myApp").setMaster("local")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 3, 4]).count())