2016-07-26 15 views
1

私はspark/pysparkを初めて使用しており、パイプラインに統合する必要があります。私は、ターミナルで実行する必要があるコードをアセンブルすることができました。さて、このコードをスクリプトとして実行したいと思います。しかし、私がPythonスタイルpyspark -c cmds.pyを実行すると、Error: Invalid argument to --conf: cmds.pyが得られます。 私はspark-submit --master local cmds.pyに見えたが、それはここでは最も簡単な解決策は何スクリプトとしてPySparkを実行してください

File "/path/cmd.py", line 4, in <module> 
    sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet'); 
AttributeError: 'property' object has no attribute 'parquet' 

を返しますか? はここcmds.py

from pyspark import SparkConf, SparkContext 
from pyspark.sql import SQLContext 

sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet'); 
pandaValues = sparkValues.toPandas(); 
pandaValues.to_csv('/a/file/ranks.csv'); 

csvにファイルを変換するためのより良い方法があるかもしれませんですが、Pythonは私のための最も簡単です。解決


Thisは私のpythonのパイプラインにpysparkコールを実装するのに役立ちました。外出する必要はありません...

+1

UPS:

samplecode.py内のコードは、以下のもののようになります。 –

+2

何が問題を解決しましたか? * This *へのリンクが壊れています。あなたとあなたが何をしたのかを教えてください。 –

答えて

0

私は少し遅れていますが、pyspark 2.0.0で何かしようとすると、以下のことが役に立ちます。あなたがあこがれるがインストールされている、またはあなたがAWS EMRを使用している場合は、糸のように、マスターはそれの世話をします言及する必要がいけない場合

spark-submit --master mastername samplecode.py 

はpysparkコードを提出します。一度にあまりにも多くのことをやって、

# intialize sparkSession 
from pyspark.conf import SparkConf 
from pyspark.sql import SparkSession 
spark =SparkSession.builder.config(conf=SparkConf()).appName("yourappnam").getOrCreate() 
df = spark.sql("select * from abc") 
関連する問題