SPARK:RSS 性能调整 - 第二,RSS 进程
最编程
2024-04-22 06:58:14
...
1、shuffle read:在shuffle read阶段,mapper会将shuffle数据不直接罗盘针,而是按照reducer将block推到rss集群内存中。
2、RSS内存将各mapper产生的数据merge起来,存到hdfs中。
3、shuffle write:reducer在shuffle fetch的时候,reducer向Driver发起请求,拿到MapStatus消息,然后找到HDFS上聚合后的数据。
优点:
- 读数据的时候为顺序读,减少磁盘随机读和网络开销。
- rss可以做数据备份和数据去重。
- shuffle read的集群负载均衡。