私はストリームを使ってhadoopを実行しようとしています。私は2つのファイルを持っています。 1つはマッパー用のjavaファイルで、もう1つはレデューサー用のpythonスクリプトです。MapperとしてのJavaクラスとReducerとしてのPythonスクリプトの使用
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
とmap()
関数を定義します。入力分割の各レコードについて、入力されたkey(byte_offset)
、value(line)
のペアを読み取り、byte_offset
とその行のハッシュを出力します。
Reducerはすべてのハッシュを結合してトップハッシュを生成するPythonスクリプトです。
2つ(JavaとPython)を組み合わせることは可能ですか?どのように私はストリーミングを使用してマッパーとして私のJavaファイルを指定することができます。