map对数据进行归集去重,
reduce接受到数据后,
public void reduce(Text key, Iterable<LongWritable> values, Context context)
throws IOException, InterruptedException {
......
调用写入数据库方法
context.write(key, val);
}
还是等job完成后适合数据写入数据库
boolean result = job.waitForCompletion(true);
// read output and calculate standard deviation
stddev = readAndCalcStdDev(outputpath, conf)
各有什么好处?
如果在reduce里面进行数据写入,好像是串行的,(setup方法输出提示信息),并不是分布式并行,是什么原因?
|