0
hadoopで単語数を正常に実行しました。今私はテキストファイルまたはpdfで同じプロセスを繰り返すことを望みます。私は言葉の章を賢明に数えたい。 どうすればよいですか?ハーフアウトでテキストファイルの単語を数え上げるには
hadoopで単語数を正常に実行しました。今私はテキストファイルまたはpdfで同じプロセスを繰り返すことを望みます。私は言葉の章を賢明に数えたい。 どうすればよいですか?ハーフアウトでテキストファイルの単語を数え上げるには
MapReduceでは、キーをどのように構築するかについてすべてです。
ワードカウントでは、マップフェーズのすべての単語が1としてカウントされます。レデューサーでは、ファイル全体に表示された単語の集計が処理されます。
WORDCOUNT例:
Map Phase:
<Key , val>
in, 1
at, 1
in, 1
Reducer Phase:
in, 2
at, 1
1つの以上のレベル(章)に分割するために、あなただけの複合キーを作成する必要があります。章の例ワット
WORDCOUNT:
Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
セカンダリソートは同じですが、さらに複雑とを実装するためのより良いときれいな方法です。 hadoop map reduce secondary sorting
申し訳ありませんが、私はあなたの答えを理解することができません。私の先生は、各章を別々のノードに保存する必要があり、各ノードのマッパーコードを実行し、その後にレデューサーコード –