逻辑回归是什么?主要用于解决什么问题?与线性回归有什么关系?如何计算和评估逻辑回归的最佳模型?逻辑回归与概率回归的异同?在R中如何实现?
首先还是先看wiki对逻辑回归(logisitic regression)的解释
Logistic regression is a statistical model that in its basic form uses a logistic function to model a binary dependent variable。
逻辑回归(logistic/logit regression)主要应用于解决二分类问题,和线性回归都属于线性模型,但是逻辑回归是解决分类问题,而线性回归是解决回归问题。逻辑回归通过最大似然法(Maximum likelihood)寻找最佳模型。可以通过summary()函数的输出结果AIC值对比模型的拟合程度,或者通过sensitivity, specifity评估,既可以以ROC和AUC的结果评估。概率回归也用于二分类问题,和逻辑回归类似。不同的是逻辑回归使用累积逻辑函数(cumulative logistic function),概率回归使用正态累积密度函数(normal cumulative density function)。实际应用两个模型时时可根据自己的爱好选择。逻辑回归在R中的实现以 glm()
函数实现,并指定参数 **family = binomial**
, 而概率回归以glm()函数,并指定 family =binomial(link="probit")
。
参考资料:
statquest逻辑回归视频:https://www.youtube.com/playlist?list=PLblh5JKOoLUKxzEP5HA2d-Li7IJkHfXSe