MapReduce：Pythonを使用してシーケンスファイルを書き込む[Streaming]

MapReduceにシーケンスファイルを書き込もうとしています。私はjavaでうまくやったけど、Pythonでどうやってやるかわからない。MapReduce：Pythonを使用してシーケンスファイルを書き込む[Streaming]

ありがとうございました！

2017-03-14 Mayur Beldar

HadoopはStreamingコマンドオプション-outputformatを受け入れます。
出力ファイルをシーケンスファイルとして生成するには、-outputformat SequenceFileOutputFormatを使用します。例えば

：デフォルト

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ 
    -input myInputDirs \ 
    -output myOutputDir \ 
    -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\ 
    -mapper MapperClass \ 
    -reducer ReducerClass

、-inputformatと-outputformatそれぞれTextInputFormatとTextOutputFormatとして設定されています。

出典

2017-03-14 05:36:11 franklinsijo

ありがとうございます。これは私のために働く。これはPythonコード内で可能かどうかを知りたいだけです。 hadoopライブラリをインポートする。 –

はい、mrjobモジュールを使用してMapReduceを作成している場合。悲しいことに、このリンクは[ここ]（https://pythonhosted.org/mrjob/guides/writing-mrjobs.html#input-and-output-formats） – franklinsijo

をチェックしてください。 javaの場合 job.setOutputFormatClass（SequenceFileOutputFormat.class）; は完璧に動作していますが、表示されているようにTerminalで使用すると、クラスが見つかりませんでした。 :( –

MapReduce：Pythonを使用してシーケンスファイルを書き込む[Streaming]

答えて

関連する問題