EMR Sparkジョブから外部プロセスを呼び出す必要があります。私はrdd.pipe
が、RDDをプロセスにパイプすることができることを知っています。 (1つのRDDに1つのプロセスが存在するか、または1つの要素に1つのプロセスがあるかどうかは別としてです)。RDDへの外部プロセスへのファイルへのRDDへの外部ファイルへのファイル
しかし、私の外部プロセスは入力としてファイル名を必要とし、出力としてファイルを生成します。
この外部プロセスを呼び出し、その後に出力ファイルをRDDとしてロードするにはどうすればよいですか?