欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

MapReduce 工作机制和源代码分析-2.ReduceTask 工作机制

最编程 2024-10-18 10:43:21
...

ReduceTask一共分为三个阶段:Copy、Sort、Reduce阶段。
在这里插入图片描述
每个MapTask已经把数据持久化到磁盘后,等待Reduce端拉取。ReduceTask闪亮登场。

  • Copy 阶段
    ReduceTask 拉取自己指定分区的数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。

  • Sort 阶段
    对拉取过来的数据进行归并排序。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。

  • Reduce 阶段
    相同的key进入reduce()函数,reduce()函数将计算结果写到HDFS上。

推荐阅读