操控关键：在机器学习中特征缩放的重要性详解——第二章：基础知识介绍

最编程 2024-02-16 16:39:17

...

特征缩放是一种用于机器学习和数据挖掘的数据预处理方法，用于对数据的自变量或特征的范围进行归一化。在机器学习的背景下，特征缩放可能至关重要，因为它直接影响使用距离计算的算法的性能，例如 k 最近邻（KNN）和 k 均值聚类，并且会显着影响神经网络和支持向量机中使用的梯度下降优化方法的性能。

有几种常见的特征缩放方法：

1 最小-最大缩放（归一化）：

2 标准化（Z 分数归一化）：

此方法对要素进行缩放，使其具有 0μ=0 和 1 σ=1 的标准正态分布属性，其中 μ 是平均值（平均值），σ 是与平均值的标准差。样本的标准分数（也称为 z 分数）的计算方法如下：

3 最大Abs缩放：

4 Robust 缩放的：

特征缩放应用于数据的自变量或特征，以标准化数据的范围。这在计算数据点之间距离的算法中非常重要，或者当特征具有不同的单位和比例时，因为它可以使训练过程更快，并减少卡在局部最优状态的机会。但是，缩放技术的选择可能取决于算法和数据的具体特征。