歡迎您光臨本站 註冊首頁

如何將PySpark導入Python的放實現(2種)

←手機掃碼閱讀     kyec555 @ 2020-05-02 , reply:0

這篇文章主要介紹瞭如何將PySpark導入Python的放實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

方法一

使用findspark

使用pip安裝findspark:

pip install findspark

在py文件中引入findspark:

>>> import findspark >>> findspark.init()

導入你要使用的pyspark庫

>>> from pyspark import *

優點:簡單快捷

缺點:治標不治本,每次寫一個新的Application都要加載一遍findspark

方法二

把預編譯包中的Python庫文件添加到Python的環境變量中

export SPARK_HOME=你的PySpark目錄 export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH

優點:一勞永逸

缺點:對於小白可能不太瞭解環境變量是什麼

問題1、ImportError: No module named pyspark


現象:

已經安裝配置好了PySpark,可以打開PySpark交互式界面;

在Python裡找不到pysaprk。

參照上面解決

問題2、ImportError: No module named ‘py4j'



現象:



已經安裝配置好了PySpark,可以打開PySpark交互式界面;

按照上面的b方式配置後出現該問題。

解決方法:


把py4j添加到Python的環境變量中


export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH

注意:這裡的py4j-x.xx-src.zip根據自己電腦上的py4j版本決定。

測試成功的環境

Python: 3.7、2.7

PySpark: 1.6.2 - 預編譯包

OS: Mac OSX 10.11.1



參考

Stackoverflow: importing pyspark in python shell

Stackoverflow: Why can't PySpark find py4j.java_gateway?


[kyec555 ] 如何將PySpark導入Python的放實現(2種)已經有270次圍觀

http://coctec.com/docs/python/shhow-post-232524.html