2016-09-15 15 views
0

EMR Sparkジョブから外部プロセスを呼び出す必要があります。私はrdd.pipeが、RDDをプロセスにパイプすることができることを知っています。 (1つのRDDに1つのプロセスが存在するか、または1つの要素に1つのプロセスがあるかどうかは別としてです)。RDDへの外部プロセスへのファイルへのRDDへの外部ファイルへのファイル

しかし、私の外部プロセスは入力としてファイル名を必要とし、出力としてファイルを生成します。

この外部プロセスを呼び出し、その後に出力ファイルをRDDとしてロードするにはどうすればよいですか?

答えて

1

は、RDDごとに1つのプロセス、つまり1つの要素あたり1つのプロセスですか?

どちらもありません。これはパーティションごとのプロセスです。

プロセスは入力としてファイル名を必要とし、出力としてファイルを生成します。どのように

最も簡単な解決策は、ランダムに生成するパスを書き込み、単純なラッパーを記述することであることができ、あなたのプログラムが起動する、ファイルを読み込み、標準出力に書き込み、これはpipeがあるものについてほとんどすべてです。分散ファイルシステムに書き込む場合を除き、そうでない場合は出力を取得できません。

関連する問題