私はある文書内の別個の単語の総数を取得する必要がある宿題を割り当てています。Hadoopで縮小入力グループの数を取得します。
これはHadoopが提供するWordCountの例に非常に似ています。しかし、今では、ドキュメント内の別個の単語の総数を求めています。コンソール出力では、reduce入力グループの数は、別個の単語の総数に対応します。
データを減らさずにこの番号を取得する簡単な方法はありますか?または、この問題を解決する方法ではなく、Map/Reduceです。連鎖も解決策になる可能性がありますが、回答はジョブのコンソール出力で既に提供されているため、必要のないものを減らさずにreduce入力グループの数を取得する簡単な方法がないのだろうかと思います。
挨拶、 のHadoop新人
入力いただきありがとうございます。私は現在、「入力グループを減らす」という値を使用しています。これは 'job'インスタンスの' job.getCounters()。findCounter( "org.apache.hadoop.mapred.Task $ Counter"、 "REDUCE_INPUT_GROUPS") 'メソッドを使って見つけることができます。 Hadoop 1.0.0を使用しているIm – roelio