- 安裝pyCharm;
- 安裝python,選用python 2.7.9版本;
- 安裝py4j包:
從py4j 0.10.4(https://pypi.python.org/pypi/py4j/0.10.4)鏈接下載py4j包,這里選的是py4j 0.10.4版本
解壓py4j包,打開py4j文件夾,在此路徑下打開cmd,執行python setup.py install
命令 - 安裝numpy:
從https://pypi.python.org/pypi/numpy 路徑下載numpy包,這里選擇的是[numpy-1.13.3-cp27-none-win_amd64.whl]版本。在放置whl的路徑下執行pip install numpy-1.13.3-cp27-none-win_amd64.whl
命令即可 - 下載hadoop和spark包,選用的版本是hadoop-2.4.0(https://archive.apache.org/dist/hadoop/common/)和spark-2.1.0-bin-hadoop2.4.tgz(http://spark.apache.org/downloads.html)(基于hadoop-2.4.0的預編譯版本)
- 將spark解壓目錄下python/pyspark包拷貝至python安裝路徑下的lib/site-packages下面
- pyCharm 配置Run configuration
SPARK_HOME = spark包解壓目錄
PYTHONPATH = %SPARK_HOME%/python - 如果想直接在pyCharm里面運行pySpark程序,需要保證spark Driver用的python版本(spark-2.1.0默認用的是python2.7)和pyCharm配置的python版本是一致的,否則會報版本不匹配錯誤:
【機器學習】搭建pySpark ML開發環境
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
推薦閱讀更多精彩內容
- # Python 資源大全中文版 我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
- Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
- Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
- linux和windows下安裝python拓展包-pycharm、numpy、scipy、matplotlib、...