2017-03-14 7 views

答えて

1

HadoopはStreamingコマンドオプション-outputformatを受け入れます。
出力ファイルをシーケンスファイルとして生成するには、-outputformat SequenceFileOutputFormatを使用します。例えば

:デフォルト

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ 
    -input myInputDirs \ 
    -output myOutputDir \ 
    -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\ 
    -mapper MapperClass \ 
    -reducer ReducerClass 

-inputformat-outputformatそれぞれTextInputFormatTextOutputFormatとして設定されています。

+0

ありがとうございます。これは私のために働く。 これはPythonコード内で可能かどうかを知りたいだけです。 hadoopライブラリをインポートする。 –

+0

はい、mrjobモジュールを使用してMapReduceを作成している場合。悲しいことに、このリンクは[ここ](https://pythonhosted.org/mrjob/guides/writing-mrjobs.html#input-and-output-formats) – franklinsijo

+0

をチェックしてください。 javaの場合 job.setOutputFormatClass(SequenceFileOutputFormat.class); は完璧に動作していますが、表示されているようにTerminalで使用すると、クラスが見つかりませんでした。 :( –

関連する問題