sklearn logistic regression log likelihood

最编程 2024-07-25 14:35:20

...

Scikit-learn中的逻辑回归模型采用了极大似然估计（maximum likelihood estimation）来估算模型的参数，同时使用对数似然函数（log-likelihood function）来表示损失函数。对数似然函数是似然函数取对数后得到的函数，其形式为：

L(θ|X,Y)=∏[P(Y=1|X,θ)^y * (1-P(Y=1|X,θ))^(1-y)]

其中，θ表示模型的参数，X表示输入特征，Y表示输出标签。y∈{0,1}表示输出标签的取值。P(Y=1|X,θ)表示当输入特征X和模型参数θ给定时，输出标签为1的概率。根据最大似然估计的思想，我们的目标是希望选择最合适的模型参数θ，使得对数似然函数（损失函数）最大。

在Scikit-learn中，逻辑回归模型的log-likelihood值可以通过调用模型的score方法来获取。该方法的原型为：

score(X, y, sample_weight=None)

其中，X表示输入特征，y表示输出标签，sample_weight是样本权重。该方法返回的是模型在给定数据集上的平均对数似然值，具体计算方式为：

log_likelihood = -log(1 + exp(-y * y_hat))

其中，y_hat表示模型预测的标签概率，log表示自然对数（以e为底）。注意，该计算方式是一种简化的形式，实际上还包含了正则化项。

log likelihood of multiclass logistic regression