マップ縮小ジョブをhadoopストリーミングで実行していますが、「too many params」というエラーが表示されます。問題は、入力引数に1500を超えるディレクトリを渡す入力にあります。私は入力ファイルの数を減らすことはできません。Hadoop Streaming - 入力パラメータが多すぎます
提案があります。
マップ縮小ジョブをhadoopストリーミングで実行していますが、「too many params」というエラーが表示されます。問題は、入力引数に1500を超えるディレクトリを渡す入力にあります。私は入力ファイルの数を減らすことはできません。Hadoop Streaming - 入力パラメータが多すぎます
提案があります。
ワイルドカードを使用すると、明示的にリストする必要なく、多くのファイルを選択できます。
ファイルは異なるディレクトリにあります。これらのディレクトリからファイルを取得するために、すでにワイルドカードを使用しています。だから私はむしろ私は1500の異なるディレクトリを持っていると言うと、それらのディレクトリ内に複数のファイルがあります。 – Swapnil
- 複数のディレクトリにワイルドカードを使用できますか? – ravwojdyla
いいえ私はできません..私は入力引数として1000以上のパラメータを取ることができるオーバーライドプロパティを探しています。それ以外の場合は、ディレクトリリストを2に分割してMRジョブを2回実行する必要があります – Swapnil
あなたは1500ディレクトリを使用していますか?適格な入力の数はINTEGER.MAX(Javaで)でなければならず、非常に大きな数(2^31 -1)になります。これは、hadoopストリーミングjar(StreamJob.java)のソースコードに由来します。 完全なエラーの詳細を共有できますか? – Akarsh
私はhadoopストリーミングを使用しており、コマンドライン引数の数が不平を言っています。 – Swapnil
Swapnil - 正確なコマンドと正確なエラーメッセージのような詳細を共有できますか? – Akarsh