google-cloud-dataproc

0熱

1答えて

任意のVMインスタンスが誤って削除された場合は、Dataprocクラスタで回復する方法があります。削除されたVMインスタンスを回復する方法がない場合、新しいVMインスタンスを作成して既存のDataProcクラスタに接続できますか？お勧めします。

0熱

1答えて

dataproc pysparkジョブへのパラメータの受け渡し

dataproc pysparkジョブのサブミットで呼び出されるpythonスクリプトにどのようにパラメータを渡しますか？ここで私はといじくるてきたCMDれる： gcloud dataproc jobs submit pyspark --cluster my-dataproc \ file:///usr/test-pyspark.py \ --properties=^:^p1="7day":p

0熱

1答えて

Dataproc pysparkマップ内でGCP Translate APIを呼び出す

ファイル内の各行に対してpysparkからクライアントAPIを翻訳する言語検出メソッドを呼び出そうとしています。マップメソッドを次のように作成しましたが、ジョブがエラーなしでフリーズしているようです。私は翻訳APIへの呼び出しを削除する場合、それは正常に実行されます。 pySparkマップ内でGoogleクライアントAPIメソッドを呼び出すことは可能ですか？デフdoTranslate（データ）

0熱

1答えて

Google Cloud Dataproc - 送信中の暗号化ですか？

FAQ（https://cloud.google.com/dataproc/docs/resources/faq）の次の内容が実際に何を意味するのか知っていますか？ "クラスタ作成またはジョブ提出の場合、データはクラスタ間で転送中にユーザー暗号化できます。" クラスタ作成時に暗号化を有効にするオプションはありません。基本的には、すべてのコンポーネントを自分で設定して、通信が暗号化されていることを

1熱

1答えて

Dataproc（Spark v2）の糸箱の例

DataprocのSpark 2.xの糸にデフォルトキューを追加することはできますか？クラスタの作成時に失敗試み：さらに capacity-scheduler:yarn.scheduler.capacity.root.queues=alpha,beta,default yarn:yarn.scheduler.capacity.root.queues=alpha,beta,default 、また失

0熱

1答えて

データパイプ上のプリエンプティブワーカー

dataprocドキュメントでは、プリエンプティブワーカーをストレージに使用しないでください。なぜブートディスクのサイズが小さくなっているのですか？つまり、常勤の労働者が処理中に自分のデータのために十分な記憶容量を持つことを保証するべきですか？先取り労働者を最大限に活用する方法に関する詳細なガイダンスは高く評価されます。

1熱

1答えて

Google Dataprocクラスタ内暗号化

GoogleはGDPRに準拠するよう取り組んでいます。コアとなるのは、データの暗号化です。 Google Cloud Platformのノード間でデータを移動すると、データの暗号化が解除されていることがわかります。クラスタ内のデータ暗号化についてはどうでしょうか？シャッフル中にGoogle Dataprocを使用しているときまた、tmp dirがSparkによって内部的に使用されているときにデータ

0熱

1答えて

HadoopのセキュリティGroupMappingServiceProvider例外

私はGoogleのdataprocクラスタ上のスパークジョブを実行しようとしているが、次のエラーを取得しています： Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: class org.apache.hadoop.security.JniBasedUnixGroupsMapping