CART 回归树公式详解

最编程 2024-10-06 07:20:37

...

本文将说明CART 回归树这些公式是如何在整个构建过程中发挥作用的。

CART 回归树的核心思想

CART（分类与回归树）既可以用于分类任务，也可以用于回归任务。在回归任务中，CART 回归树的目标是对连续型目标变量进行预测（例如预测房价、温度等）。与线性回归等方法不同，CART 回归树通过递归地将特征空间划分成多个区域，然后在每个区域中使用该区域内样本的目标均值来进行预测。

通过将数据集分成多个子集，CART 回归树能够很好地拟合非线性数据。其基本流程如下：

递归选择最优的特征和分裂点，划分数据集。
在每个划分区域内，使用该区域中的目标均值作为该区域的预测值。
通过最小化误差平方和来选择划分特征和分裂点。

CART 回归树的建模过程（公式 7-10）

$\sum_{m=1}^{M} c_m I(x \in R_m)$

公式 7-10 是 CART 回归树的预测模型表达式，描述了如何为每个输入 $x$ 生成预测值。

$f (x)$ ：CART 回归树对于输入 $x$ 的预测输出值。
$R_m$ ：特征空间中的第 $m$ 个划分区域。CART 回归树通过划分特征空间，将数据集分成 $M$ 个不重叠的区域。
$c_m$ ：区域 $R_m$ 内的预测值（常数）。通常来说，它是该区域内目标变量 $y$ 的均值（即公式 7-11 中描述的计算方式）。
$\in R_m)$ ：指示函数，当 $x$ 位于区域 $R_m$ 中时，该函数为 1，否则为 0。

该公式的含义是：给定一个输入 $x$ ，CART 回归树会找到 $x$ 所属的划分区域 $R_m$ ，并返回该区域的预测值 $c_m$ 作为模型的输出。这种模型基于二叉树结构来递归划分数据，使得每个区域都包含类似的目标值。

预测过程：

对于输入样本 $x$ ，模型会通过决策树的划分找到其所属的区域 $R_m$ 。
输出 $f (x)$ 就是区域 $R_m$ 对应的常数 $c_m$ ，即 $R_m$ 内所有样本的目标均值。

这种方法使得 CART 回归树非常灵活，能够捕捉数据中的复杂模式，而不是简单的线性关系。

如何确定区域内的输出值（公式 7-11）

$c_m = \text{average}(y_i | x_i \in R_m)$

公式 7-11 详细描述了如何计算区域 $R_m$ 的预测值 $c_m$ 。也就是说，区域 $R_m$ 的预测值是所有位于该区域内的样本的目标均值。

$y_i$ ：是第 $i$ 个样本的真实目标值。
$x_i \in R_m$ ：表示样本 $x_i$ 属于区域 $R_m$ 。

公式含义：

该公式表明，对于属于区域 $R_m$ 的所有样本 $x_i$ ，其目标值 $y_i$ 的均值就是该区域的预测值 $c_m$ 。这种方式保证了在该区域内的所有样本都会有一个相同的预测值。

举例说明：

假设我们有 5 个样本 $x_1, y_1), (x_2, y_2), (x_3, y_3), (x_4, y_4), (x_5, y_5)$ ，其中 $x_1, x_2, x_3$ 属于区域 $R_1$ ，而 $x_4, x_5$ 属于区域 $R_2$ 。那么，区域 $R_1$ 的预测值 $c_1$ 将是 $y_1, y_2, y_3$ 的均值，区域 $R_2$ 的预测值 $c_2$ 将是 $y_4, y_5$ 的均值。

这个公式的核心思想是：在每个区域中，使用目标变量的平均值来作为该区域的预测值。

如何划分数据集（公式 7-12）

$R_1(j, s) = \{ x | x^{(j)} \leq s \}, \quad R_2(j, s) = \{ x | x^{(j)} > s \}$

上一篇： C++ 类和对象初步介绍-4.类访问限定符和封装

下一篇： Java 中的多级循环控制，包括金字塔和 9-9 乘法表打印

CART 回归树公式详解

CART 回归树的核心思想

CART 回归树的建模过程（公式 7-10）

预测过程：

如何确定区域内的输出值（公式 7-11）

公式含义：

举例说明：

如何划分数据集（公式 7-12）

CART 回归树公式详解

理解逻辑回归（LR）：公式、损失函数和推导步骤详解

理解CART决策树：分类和回归的利器