Java 多线程流水线模式

最编程 2024-03-13 07:33:46

...

3月16日，北京源创会 —— “数据库，2024 开炫”

流水线

什么是流水线？

在计算机中，对于一条具体的指令执行过程，通常可以分为五个部分：取指令，指令译码，取操作数，运算（ALU），写结果。前三步由指令控制器完成，后两步则由运算器完成。按照传统的方式，所有指令顺序执行，那么先是指令控制器工作，完成第一条指令的前三步，然后运算器工作，完成后两步，第一条指令执行完毕。然后第二条指令又是先指令控制器工作，完成前三步，然后运算器，完成第二条指令的后两部…… 传统方式有个很大的缺点就是，指令只能一条一条地执行，仔细分析一下就会发现，这种方式存在很大的资源浪费：即同一时刻，要么指令控制器工作，运算器闲着；要么运算器工作，指令控制器闲着。这样一方面资源得不到有效利用，另一方面就是工作效率很低。流水线的出现就是为了解决这个问题，下面我们来看一下流水线的工作模式：假设有两个指令INS_A和INS_B,它们的执行分别要经过A,B,C,D四个过程，假设A到D四个过程分别由四个硬件元件完成。按照传统的方式，它们的流程如下：传统方式这种方式的缺点就是，只能一条指令一条指令的执行，并且当指令执行到过程B的时候，处理过程A和CD的元件是处于空闲状态的。

流水线方式如下：

说明一下，通过流水线的方式，当INS_A指令执行完过程A之后，处理过程A的元件就空闲了，此时我们就开始处理指令INS_B的A阶段，这样一来，INS_B指令只需要等到INS_A的A过程执行完成就可以继续执行了，这样以来就在很大程度上提高了效率。

流水线中断

使用流水线能够很大程度提高程序执行效率，这点是毋庸置疑的，但是，在系统中，每当引入一个新的模式或者组件的时候，我们就需要对应处理该模式或者组件所带来的问题，那么引入流水线的一个很大的问题就是流水线中断。

产生中断一般是由两个原因造成的，一个是“相关”，一个是“条件转移”。相关:指的是一条指令的执行需要依赖前一条指令的执行结果。拿上面的例子，假设INS_B指令在执行过程C的时候，需要使用INS_A指令过程D的结果，那么指令INS_B在执行到C的时候，由于A指令的D过程还没有执行完成，所以此时INS_B就不能继续执行，否则就会拿到错误结果。所以此时就需要将流水线中断，从而等待指令INS_A的D过程的结束。如下图所示：

条件转移:如果一条指令是条件转移指令，即指令执行结果是根据条件发生变化的，那么系统就不清楚下面应该执行哪一条指令，这时就必须等第一条指令的判断结果出来才能执行第二条指令。条件转移所造成的流水线停顿甚至比相关还要严重的多。

所以：流水线虽然能够提高整体运行效率，但是在某些情况下，需要中断流水线，以保证程序运行正确，而流水线的中断又会降低系统运行效率。

流水线在Java中的应用

目前在java提供的实现中，并没有用到流水线模式，但是我们知道JVM虚拟机在运行时对我们的代码进行的指令重排序，目的就是为了减少流水线的中断，从而提高流水线运行效率。

在实际的项目开发中，我们也可以学习流水线模式的思想，将业务流程拆分成多个子流程，然后采用流水线的方式进行，以减少程序等待。比如有一个操作涉及到1）查询数据库，2）本地处理数据，3）远程RPC通知结果三个过程，其中过程1和过程3都涉及到网络IO操作，所以整体运行是比较耗时的。但是我们可以采用流水线作业的方式，这样就可以充分利用三部分的资源。提高系统的整体运行效率。

Commons Pipeline

apache基金会下的一个项目，提供了流水线操作的框架。参考这里 PS:这个框架貌似好久都没有维护过了，不知道为啥。。

自己实现一个简单的流水线

在黄文海先生的《Java多线程实战指南(设计模式篇)》书中，详细讲解了流水线的java实现，另外，可以参考它书中的源码,点击这里

我也简单写了一个，假设有一个任务需要分为三步执行，那么可以将每一步抽象成一个任务阶段（TaskStage)，然后每个任务阶段都被提交到队列中，然后三个线程分别处理三个队列中的数据。 TaskStage

package pipeline;

/**
 * 任务阶段，比如一个任务分为三个阶段，每一个阶段都有一个TaskStage与之对应
 */
public interface TaskStage {

	/**
	 * 处理任务，返回值为该任务阶段的下一个阶段
	 */
	public TaskStage process();
}

三个具体的任务阶段：数据库查询任务阶段

package pipeline;

/**
 * 查询数据库阶段
 */
public class DBQueryTaskStage implements TaskStage {

	@Override
	public TaskStage process() {
		String result = queryDB();
		System.out.println(result);
		return new CalculateTaskStage(result);
	}

	/**
	 * 模拟查询数据库过程
	 * 
	 * @return
	 */
	private String queryDB() {
		try {
			Thread.sleep(1000 * 20);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
		return "DBQueryTaskStage";
	}

}

计算处理结果任务阶段

package pipeline;

public class CalculateTaskStage implements TaskStage {
	private String data;

	public CalculateTaskStage(String data) {
		super();
		this.data = data;
	}

	@Override
	public TaskStage process() {
		try {
			Thread.sleep(1000 * 5);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
		String result = calculate(data);
		System.out.println(result);
		return new RpcTaskStage(result);
	}

	private String calculate(String data2) {
		return data2 + ",CaculateTaskStage";
	}

}

远程RPC调用任务阶段

package pipeline;

public class RpcTaskStage implements TaskStage {

	private String data;

	public RpcTaskStage(String data) {
		super();
		this.data = data;
	}

	@Override
	public TaskStage process() {
		try {
			Thread.sleep(1000 * 3);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
		System.out.println(data + ",RpcTaskStage");
		return null;
	}

}

接下来需要有一个流水线类，用于任务调度

package pipeline;

import java.util.concurrent.BlockingDeque;
import java.util.concurrent.LinkedBlockingDeque;
import java.util.concurrent.TimeUnit;

/**
 * 整条流水线
 */
public class Pipeline {

	// 用于存放任务的第一阶段
	private BlockingDeque<TaskStage> firstStageQueue = new LinkedBlockingDeque<TaskStage>();

	// 用于存储任务的第二阶段
	private BlockingDeque<TaskStage> secondStageQueue = new LinkedBlockingDeque<TaskStage>();

	// 用于存储任务的第三阶段
	private BlockingDeque<TaskStage> thirdStageQueue = new LinkedBlockingDeque<TaskStage>();

	public Pipeline() {
		super();

		// 启动三个线程，分别处理三个阶段的任务
		new Thread() {

			@Override
			public void run() {
				while (true) {
					TaskStage taskStage = null;
					try {
						taskStage = firstStageQueue.poll(80, TimeUnit.SECONDS);
					} catch (InterruptedException e1) {
						e1.printStackTrace();
					}
					if (taskStage != null) {
						TaskStage nextStage = taskStage.process();
						try {
							secondStageQueue.put(nextStage);
						} catch (InterruptedException e) {
						}
					} else { // 取出来的数据为空，则终止（这种情况可能会有问题，这里做简单演示）
						break;
					}
				}
			}
		}.start();

		new Thread() {

			@Override
			public void run() {
				while (true) {
					TaskStage taskStage = null;
					try {
						taskStage = secondStageQueue.poll(80, TimeUnit.SECONDS);
					} catch (InterruptedException e1) {
						e1.printStackTrace();
					}
					if (taskStage != null) {
						TaskStage nextStage = taskStage.process();
						try {
							thirdStageQueue.put(nextStage);
						} catch (InterruptedException e) {
						}
					} else {
						break;
					}
				}
			}
		}.start();

		new Thread() {

			@Override
			public void run() {
				while (true) {
					TaskStage taskStage = null;
					try {
						taskStage = thirdStageQueue.poll(80, TimeUnit.SECONDS);
					} catch (InterruptedException e) {
						e.printStackTrace();
					}
					if (taskStage != null) {
						taskStage.process();
					} else {
						break;
					}
				}
			}
		}.start();
	}

	public void process(TaskStage firstStage) {
		try {
			firstStageQueue.put(firstStage);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
	}

}

主程序入口:

package pipeline;

import java.util.concurrent.locks.LockSupport;

public class Main {
	public static void main(String[] args) {
		Pipeline line = new Pipeline();

		for (int i = 0; i < 10; i++) {
			line.process(new DBQueryTaskStage());
		}

		LockSupport.park();
	}
}

PS:上面的程序只是简单演示，会有一些线程调度的问题。

参考资料

流水线
《Java多线程实战指南(设计模式篇)》黄文海

上一篇： 6.3 Verilog RTL 级低功耗设计（上） |

下一篇： Python 相关] 没有最强插件之一的 jupyter 平台

Java 多线程流水线模式

流水线

什么是流水线？

流水线中断

流水线在Java中的应用

Commons Pipeline

自己实现一个简单的流水线

参考资料

java 设计模式在行动，拟人化万物的适配器模式_java 平庸的实现模式(1)

Java23 设计模式 - 策略模式的行为模式

用通俗易懂的语言理解 Java 设计模式的指南

原子类如何用于 Java 函数的并发和多线程？

Java23 设计模式 - 备忘录模式的行为模式

03-JAVA 设计模式 - 策略模式

03-JAVA 设计模式 - 状态模式

2024 Java 面试准备 - 多线程 (1)