スパークとパンダに関するNoob Questionがあります。私はパンダ、numpyなどを使用したいと思います。スパークと私はlibをインポートするときにエラーがあります。あなたは私を助けることができますPLZ? これは私のコードスパークでパンダを使用
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
ですこれはエラーです:
ImportError: No module named pandas
は、どのように私はパンダを使用することができますか?ローカルモードではありません。
それは火花提出すると、パッケージをインポートしたり、インストールしたり、プッシュすることが可能ですか? – Zop
パッケージは 'pyspark'サーバ側で利用できるようにする必要があります。 'spark-submit'はあなたのスクリプトだけを送ります。依存関係、ライブラリなどは送信しません。 – rtkaleta