レコードの数をカウントするためのMApreduceコードを書く

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapred.*; 

public class LineCount 

{ 
    public static class Map extends MapReduceBase implements 
      Mapper<LongWritable, Text, Text, IntWritable> 

{ 
    private final static IntWritable one = new IntWritable(1); 
    private Text word = new Text("Total Lines"); 

    public void map(LongWritable key, Text value, 
      OutputCollector<Text, IntWritable> output,Reporter reporter) 
      throws IOException 
    { 
     output.collect(word, one); 
    } 
} 

public static class Reduce extends MapReduceBase implements 
     Reducer<Text, IntWritable, Text, IntWritable> { 
    public void reduce(Text key, Iterator<IntWritable> values, 
      OutputCollector<Text, IntWritable> output, Reporter reporter) 
      throws IOException { 
     int sum = 0; 
     while (values.hasNext()) { 
      sum += values.next().get(); 
     } 
     output.collect(key, new IntWritable(sum)); 
    } 
} 

public static void main(String[] args) throws Exception { 
    JobConf conf = new JobConf(LineCount.class); 

    conf.setJobName("LineCount"); 
    conf.setNumReduceTasks(5); 
    conf.setOutputKeyClass(Text.class); 
    conf.setOutputValueClass(IntWritable.class); 

    conf.setMapperClass(Map.class); 
    conf.setCombinerClass(Reduce.class); 
    conf.setReducerClass(Reduce.class); 

    conf.setInputFormat(TextInputFormat.class); 
    conf.setOutputFormat(TextOutputFormat.class); 

    FileInputFormat.setInputPaths(conf, new Path(args[0])); 
    FileOutputFormat.setOutputPath(conf, new Path(args[1])); 

    JobClient.runJob(conf); 
} 
}

出典

2015-10-20 15:09:47

私はID MapperとID Reducerを使用しています。

これはMapper.classとReducer.classです。それからちょうど読むmap input records

これを得るために実際にコードを書く必要はありません。

出典

2015-11-17 07:07:45 Marc

希望している回答よりも優れた解決策があります。

各レコードに1を出力するのではなく、map（）でカウンタをインクリメントし、cleanup（）で各マップタスクの後にインクリメントしたカウンタを出力するだけです。

中間読み込み書き込みを減らすことができます。そして減速機は少数の値のリストだけを集める必要があります。

public class LineCntMapper extends 
    Mapper<LongWritable, Text, Text, IntWritable> { 

Text keyEmit = new Text("Total Lines"); 
IntWritable valEmit = new IntWritable(); 
int partialSum = 0; 

public void map(LongWritable key, Text value, Context context) { 
    partialSum++; 
} 

public void cleanup(Context context) { 
    valEmit.set(partialSum); 

    context.write(keyEmit, valEmit); 

} 
}

あなたは完全な作業コードあなたは正確にLongSumReducer何であるかを教えてくださいすることができ、あなたのanwerためhere

出典

2015-12-11 07:01:28

エレガントで効率的なソリューション。 – tlarchuk

レコードの数をカウントするためのMApreduceコードを書く

答えて

関連する問題