スパークでパンダを使用

スパークとパンダに関するNoob Questionがあります。私はパンダ、numpyなどを使用したいと思います。スパークと私はlibをインポートするときにエラーがあります。あなたは私を助けることができますPLZ？これは私のコードスパークでパンダを使用

from pyspark import SparkContext, SQLContext 
from pyspark import SparkConf 
import pandas 

# Config 
conf = SparkConf().setAppName("Script") 
sc = SparkContext(conf=conf) 
log4j = sc._jvm.org.apache.log4j 
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) 
sqlCtx = SQLContext(sc) 

# Importation of csv out of HDFS 
data_name = "file_on_hdfs.csv" 
data_textfile = sc.textFile(data_name)

ですこれはエラーです：

ImportError: No module named pandas

は、どのように私はパンダを使用することができますか？ローカルモードではありません。

出典

2017-01-23 Zop

スパークは、RDDから作成できる独自のDataframeオブジェクトです。

numpyなどのライブラリは引き続き使用できますが、まずそれらをインストールする必要があります。

出典

2017-01-23 15:05:53 AndreyF

それは火花提出すると、パッケージをインポートしたり、インストールしたり、プッシュすることが可能ですか？ – Zop

パッケージは 'pyspark'サーバ側で利用できるようにする必要があります。 'spark-submit'はあなたのスクリプトだけを送ります。依存関係、ライブラリなどは送信しません。 – rtkaleta

ターミナルでpip list|grep 'pandas'コマンドを使用してボックスにパンダがインストールされているかどうかを確認してください。一致する場合はapt-get updateを実行してください。マルチノードクラスタを使用している場合は、すべてのクライアントボックスにpandasをインストールする必要があります。

良い

は、データフレームのスパークバージョンを試してみていますが、まだパンダを使用したい場合は、上記の方法は、

出典

2017-01-23 16:02:56

は、あなたがこの問題のためにApacheの矢印を使用することができます動作します。

Apache Arrow

それは最初のバージョンだが（表示されます）将来的にはより強力になります。インストールの

： click

出典

2017-07-31 10:38:43