2017-11-28 20 views
0

dataproc pysparkジョブのサブミットで呼び出されるpythonスクリプトにどのようにパラメータを渡しますか?ここで私はといじくるてきたCMDれる:dataproc pysparkジョブへのパラメータの受け渡し

gcloud dataproc jobs submit pyspark --cluster my-dataproc \ 
file:///usr/test-pyspark.py \ 
--properties=^:^p1="7day":p2="2017-10-01" 

は、この出力が返されます。

Job [vvvvvvv-vvvv-vvvv-vvvv-0vvvvvv] submitted. Waiting for job output... 
Warning: Ignoring non-spark config property: p2=2017-10-01 
Warning: Ignoring non-spark config property: p1=7day 
Found script=/usr/test-pyspark.py 
Traceback (most recent call last): 
    File "/usr/test-pyspark.py", line 52, in <module> 
    print(sys.argv[1]) 
IndexError: list index out of range` 

は、明らかに私も試した私が合格しようとしている2つのparamsを認識しません。 :

[email protected]:~$ gcloud dataproc jobs submit pyspark --cluster=my-dataproc test-pyspark.py 7day 2017-11-01 

しかし、それはで返さ:

ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments: 
    7day 
    2017-11-01 

hiveジョブでparamsを渡すために使用するパターンは、pysparkでは機能しません。

おかげで、 メリッサ

答えて

1

二番目の形式は、使用が近く、「 - 」のgcloudする引数からあなたの仕事に引数を分離するためには:

$ gcloud dataproc jobs submit pyspark --cluster=my-dataproc \ 
    test-pyspark.py -- 7day 2017-11-01 
+0

ええ、私は慎重に読んでいない気づきましたヘルプファイル。謝罪&多くのありがとう。 – Melissa

関連する問題