使用Python的sklearn库进行多重共线性检验:VIF和相关系数的应用
最编程
2024-02-12 20:21:14
...
是指各特征之间存在线性相关关系,即一个特征可以是其他一个或几个特征的线性组合。如果存在多重共线性,求损失函数时矩阵会不可逆,导致求出结果会与实际不同,有所偏差。
例如:
x1=[1,2,3,4,5] x2=[2,4,6,8,10] x3=[2,3,4,5,6] # x2=x1*2 # x3=x1+1
上述x2,x3都和x1成线性关系,这会进行回归时,影响系数的准确性,说白了就是多个特征存在线性关系,数据冗余,但不完全是,所以要将成线性关系的特征进行降维