pycharm 配置spark 2.2.0

參考教程:http://www.bijishequ.com/detail/384683?p=58

配置原因:在pyspark命令行 練習比較麻煩,不能自動補全,浪費時間。Jupyter notebook 是最理想的,但是還沒配置成功。

1.打開pycharm,新建一個工程

2.點擊 run --Edit Configuration..


3.配置
3.1 新建 Python ,起個名

3.2 配置script,指向你要引用 spark 的那個文件

3.3 Enviroment variables:


PYSPARK_PYTHON; 指向 你本機 的 python 路徑
PYTHONPATH:指向 spark 安裝目錄的 Python 文件夾
SPARK_HOME :指向 spark 安裝目錄

4.安裝 py4j

sudo pip3 install py4j

5.看到網上很多教程,一般都只執行到第四步即可,但是我仍然無法導入 pyspark 包,還需要下面的步驟:

選擇 File--->setting--->你的project--->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下)

6.測試程序

from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myApp").setMaster("local")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 3, 4]).count())

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容