欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

SPARK:RSS 性能调整 - 第二,RSS 进程

最编程 2024-04-22 06:58:14
...

1、shuffle read:在shuffle read阶段,mapper会将shuffle数据不直接罗盘针,而是按照reducer将block推到rss集群内存中。
2、RSS内存将各mapper产生的数据merge起来,存到hdfs中。
3、shuffle write:reducer在shuffle fetch的时候,reducer向Driver发起请求,拿到MapStatus消息,然后找到HDFS上聚合后的数据。

优点:

  1. 读数据的时候为顺序读,减少磁盘随机读和网络开销。
  2. rss可以做数据备份和数据去重。
  3. shuffle read的集群负载均衡。