這篇文章主要介紹瞭如何將PySpark導入Python的放實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
方法一
使用findspark
使用pip安裝findspark:
pip install findspark
在py文件中引入findspark:
>>> import findspark >>> findspark.init()
導入你要使用的pyspark庫
>>> from pyspark import *
優點:簡單快捷
缺點:治標不治本,每次寫一個新的Application都要加載一遍findspark
方法二
把預編譯包中的Python庫文件添加到Python的環境變量中
export SPARK_HOME=你的PySpark目錄 export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
優點:一勞永逸
缺點:對於小白可能不太瞭解環境變量是什麼
問題1、ImportError: No module named pyspark
現象:
已經安裝配置好了PySpark,可以打開PySpark交互式界面;
在Python裡找不到pysaprk。
參照上面解決
問題2、ImportError: No module named ‘py4j'
現象:
已經安裝配置好了PySpark,可以打開PySpark交互式界面;
按照上面的b方式配置後出現該問題。
解決方法:
把py4j添加到Python的環境變量中
export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH
注意:這裡的py4j-x.xx-src.zip根據自己電腦上的py4j版本決定。
測試成功的環境
Python: 3.7、2.7
PySpark: 1.6.2 - 預編譯包
OS: Mac OSX 10.11.1
參考
Stackoverflow: importing pyspark in python shell
Stackoverflow: Why can't PySpark find py4j.java_gateway?
[kyec555 ] 如何將PySpark導入Python的放實現(2種)已經有275次圍觀