1
MapReduceにシーケンスファイルを書き込もうとしています。私はjavaでうまくやったけど、Pythonでどうやってやるかわからない。MapReduce:Pythonを使用してシーケンスファイルを書き込む[Streaming]
ありがとうございました!
MapReduceにシーケンスファイルを書き込もうとしています。私はjavaでうまくやったけど、Pythonでどうやってやるかわからない。MapReduce:Pythonを使用してシーケンスファイルを書き込む[Streaming]
ありがとうございました!
HadoopはStreamingコマンドオプション-outputformat
を受け入れます。
出力ファイルをシーケンスファイルとして生成するには、-outputformat SequenceFileOutputFormat
を使用します。例えば
:デフォルト
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
-mapper MapperClass \
-reducer ReducerClass
、-inputformat
と-outputformat
それぞれTextInputFormat
とTextOutputFormat
として設定されています。
ありがとうございます。これは私のために働く。 これはPythonコード内で可能かどうかを知りたいだけです。 hadoopライブラリをインポートする。 –
はい、mrjobモジュールを使用してMapReduceを作成している場合。悲しいことに、このリンクは[ここ](https://pythonhosted.org/mrjob/guides/writing-mrjobs.html#input-and-output-formats) – franklinsijo
をチェックしてください。 javaの場合 job.setOutputFormatClass(SequenceFileOutputFormat.class); は完璧に動作していますが、表示されているようにTerminalで使用すると、クラスが見つかりませんでした。 :( –