私はspark/pysparkを初めて使用しており、パイプラインに統合する必要があります。私は、ターミナルで実行する必要があるコードをアセンブルすることができました。さて、このコードをスクリプトとして実行したいと思います。しかし、私がPythonスタイルpyspark -c cmds.py
を実行すると、Error: Invalid argument to --conf: cmds.py
が得られます。 私はspark-submit --master local cmds.py
に見えたが、それはここでは最も簡単な解決策は何スクリプトとしてPySparkを実行してください
File "/path/cmd.py", line 4, in <module>
sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
AttributeError: 'property' object has no attribute 'parquet'
を返しますか? はここcmds.py
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
sparkValues = SQLContext.read.parquet('/a/file/ranks.parquet');
pandaValues = sparkValues.toPandas();
pandaValues.to_csv('/a/file/ranks.csv');
がcsv
にファイルを変換するためのより良い方法があるかもしれませんですが、Pythonは私のための最も簡単です。解決
:
Thisは私のpythonのパイプラインにpysparkコールを実装するのに役立ちました。外出する必要はありません...
UPS:
samplecode.py内のコードは、以下のもののようになります。 –
何が問題を解決しましたか? * This *へのリンクが壊れています。あなたとあなたが何をしたのかを教えてください。 –