【機器學習】搭建pySpark ML開發環境

  1. 安裝pyCharm;
  2. 安裝python,選用python 2.7.9版本;
  3. 安裝py4j包:
    從py4j 0.10.4(https://pypi.python.org/pypi/py4j/0.10.4)鏈接下載py4j包,這里選的是py4j 0.10.4版本
    解壓py4j包,打開py4j文件夾,在此路徑下打開cmd,執行python setup.py install命令
  4. 安裝numpy:
    https://pypi.python.org/pypi/numpy 路徑下載numpy包,這里選擇的是[numpy-1.13.3-cp27-none-win_amd64.whl]版本。在放置whl的路徑下執行pip install numpy-1.13.3-cp27-none-win_amd64.whl命令即可
  5. 下載hadoop和spark包,選用的版本是hadoop-2.4.0(https://archive.apache.org/dist/hadoop/common/)和spark-2.1.0-bin-hadoop2.4.tgz(http://spark.apache.org/downloads.html)(基于hadoop-2.4.0的預編譯版本)
  6. 將spark解壓目錄下python/pyspark包拷貝至python安裝路徑下的lib/site-packages下面
  7. pyCharm 配置Run configuration
    SPARK_HOME = spark包解壓目錄
    PYTHONPATH = %SPARK_HOME%/python
  8. 如果想直接在pyCharm里面運行pySpark程序,需要保證spark Driver用的python版本(spark-2.1.0默認用的是python2.7)和pyCharm配置的python版本是一致的,否則會報版本不匹配錯誤:
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容