0
dataproc pysparkジョブのサブミットで呼び出されるpythonスクリプトにどのようにパラメータを渡しますか?ここで私はといじくるてきたCMDれる:dataproc pysparkジョブへのパラメータの受け渡し
gcloud dataproc jobs submit pyspark --cluster my-dataproc \
file:///usr/test-pyspark.py \
--properties=^:^p1="7day":p2="2017-10-01"
は、この出力が返されます。
Job [vvvvvvv-vvvv-vvvv-vvvv-0vvvvvv] submitted. Waiting for job output...
Warning: Ignoring non-spark config property: p2=2017-10-01
Warning: Ignoring non-spark config property: p1=7day
Found script=/usr/test-pyspark.py
Traceback (most recent call last):
File "/usr/test-pyspark.py", line 52, in <module>
print(sys.argv[1])
IndexError: list index out of range`
は、明らかに私も試した私が合格しようとしている2つのparamsを認識しません。 :
[email protected]:~$ gcloud dataproc jobs submit pyspark --cluster=my-dataproc test-pyspark.py 7day 2017-11-01
しかし、それはで返さ:
ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments:
7day
2017-11-01
hiveジョブでparamsを渡すために使用するパターンは、pysparkでは機能しません。
おかげで、 メリッサ
ええ、私は慎重に読んでいない気づきましたヘルプファイル。謝罪&多くのありがとう。 – Melissa