欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

CART 回归树公式详解

最编程 2024-10-06 07:20:37
...

本文将说明CART 回归树这些公式是如何在整个构建过程中发挥作用的。

CART 回归树的核心思想

CART(分类与回归树)既可以用于分类任务,也可以用于回归任务。在回归任务中,CART 回归树的目标是对连续型目标变量进行预测(例如预测房价、温度等)。与线性回归等方法不同,CART 回归树通过递归地将特征空间划分成多个区域,然后在每个区域中使用该区域内样本的目标均值来进行预测。

通过将数据集分成多个子集,CART 回归树能够很好地拟合非线性数据。其基本流程如下:

  1. 递归选择最优的特征和分裂点,划分数据集。
  2. 在每个划分区域内,使用该区域中的目标均值作为该区域的预测值。
  3. 通过最小化误差平方和来选择划分特征和分裂点。

CART 回归树的建模过程(公式 7-10)

f ( x ) = ∑ m = 1 M c m I ( x ∈ R m ) f(x) = \sum_{m=1}^{M} c_m I(x \in R_m) f(x)=m=1McmI(xRm)

公式 7-10 是 CART 回归树的预测模型表达式,描述了如何为每个输入 x x x 生成预测值。

  • f ( x ) f(x) f(x):CART 回归树对于输入 x x x 的预测输出值。
  • R m R_m Rm:特征空间中的第 m m m 个划分区域。CART 回归树通过划分特征空间,将数据集分成 M M M 个不重叠的区域。
  • c m c_m cm:区域 R m R_m Rm 内的预测值(常数)。通常来说,它是该区域内目标变量 y y y 的均值(即公式 7-11 中描述的计算方式)。
  • I ( x ∈ R m ) I(x \in R_m) I(xRm):指示函数,当 x x x 位于区域 R m R_m Rm 中时,该函数为 1,否则为 0。

该公式的含义是:给定一个输入 x x x,CART 回归树会找到 x x x 所属的划分区域 R m R_m Rm,并返回该区域的预测值 c m c_m cm 作为模型的输出。这种模型基于二叉树结构来递归划分数据,使得每个区域都包含类似的目标值。

预测过程:
  1. 对于输入样本 x x x,模型会通过决策树的划分找到其所属的区域 R m R_m Rm
  2. 输出 f ( x ) f(x) f(x) 就是区域 R m R_m Rm 对应的常数 c m c_m cm,即 R m R_m Rm 内所有样本的目标均值。

这种方法使得 CART 回归树非常灵活,能够捕捉数据中的复杂模式,而不是简单的线性关系。


如何确定区域内的输出值(公式 7-11)

c m = average ( y i ∣ x i ∈ R m ) c_m = \text{average}(y_i | x_i \in R_m) cm=average(yixiRm)

公式 7-11 详细描述了如何计算区域 R m R_m Rm 的预测值 c m c_m cm。也就是说,区域 R m R_m Rm 的预测值是所有位于该区域内的样本的目标均值。

  • y i y_i yi:是第 i i i 个样本的真实目标值。
  • x i ∈ R m x_i \in R_m xiRm:表示样本 x i x_i xi 属于区域 R m R_m Rm
公式含义:

该公式表明,对于属于区域 R m R_m Rm 的所有样本 x i x_i xi,其目标值 y i y_i yi 的均值就是该区域的预测值 c m c_m cm。这种方式保证了在该区域内的所有样本都会有一个相同的预测值。

举例说明:

假设我们有 5 个样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) , ( x 5 , y 5 ) (x_1, y_1), (x_2, y_2), (x_3, y_3), (x_4, y_4), (x_5, y_5) (x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),其中 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 属于区域 R 1 R_1 R1,而 x 4 , x 5 x_4, x_5 x4,x5 属于区域 R 2 R_2 R2。那么,区域 R 1 R_1 R1 的预测值 c 1 c_1 c1 将是 y 1 , y 2 , y 3 y_1, y_2, y_3 y1,y2,y3 的均值,区域 R 2 R_2 R2 的预测值 c 2 c_2 c2 将是 y 4 , y 5 y_4, y_5 y4,y5 的均值。

这个公式的核心思想是:在每个区域中,使用目标变量的平均值来作为该区域的预测值。


如何划分数据集(公式 7-12)

R 1 ( j , s ) = { x ∣ x ( j ) ≤ s } , R 2 ( j , s ) = { x ∣ x ( j ) > s } R_1(j, s) = \{ x | x^{(j)} \leq s \}, \quad R_2(j, s) = \{ x | x^{(j)} > s \} R

上一篇: C++ 类和对象初步介绍-4.类访问限定符和封装

下一篇: Java 中的多级循环控制,包括金字塔和 9-9 乘法表打印