2017-01-23 6 views
2

スパークとパンダに関するNoob Questionがあります。私はパンダ、numpyなどを使用したいと思います。スパークと私はlibをインポートするときにエラーがあります。あなたは私を助けることができますPLZ? これは私のコードスパークでパンダを使用

from pyspark import SparkContext, SQLContext 
from pyspark import SparkConf 
import pandas 

# Config 
conf = SparkConf().setAppName("Script") 
sc = SparkContext(conf=conf) 
log4j = sc._jvm.org.apache.log4j 
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) 
sqlCtx = SQLContext(sc) 

# Importation of csv out of HDFS 
data_name = "file_on_hdfs.csv" 
data_textfile = sc.textFile(data_name) 

ですこれはエラーです:

ImportError: No module named pandas 

は、どのように私はパンダを使用することができますか?ローカルモードではありません。

答えて

4

スパークは、RDDから作成できる独自のDataframeオブジェクトです。

numpyなどのライブラリは引き続き使用できますが、まずそれらをインストールする必要があります。

+0

それは火花提出すると、パッケージをインポートしたり、インストールしたり、プッシュすることが可能ですか? – Zop

+1

パッケージは 'pyspark'サーバ側で利用できるようにする必要があります。 'spark-submit'はあなたのスクリプトだけを送ります。依存関係、ライブラリなどは送信しません。 – rtkaleta

1

ターミナルでpip list|grep 'pandas'コマンドを使用してボックスにパンダがインストールされているかどうかを確認してください。一致する場合はapt-get updateを実行してください。 マルチノードクラスタを使用している場合は、すべてのクライアントボックスにpandasをインストールする必要があります。

良い

は、データフレームのスパークバージョンを試してみていますが、まだパンダを使用したい場合は、上記の方法は、

3

は、あなたがこの問題のためにApacheの矢印を使用することができます動作します。

Apache Arrow

それは最初のバージョンだが(表示されます)将来的にはより強力になります。インストールの

click

関連する問題