逻辑回归是统计学中一种经典的分类算法,常用于预测二元结果(如“是/否”、“成功/失败”)。尽管名为“回归”,但其本质是分类模型,通过sigmoid函数将线性输出映射到0-1区间,表示概率。
🧠 核心原理
线性回归基础
逻辑回归基于线性回归,但对输出进行非线性变换:
$$ \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n $$
其中 $ p $ 是预测为正类的概率。Sigmoid函数
将线性输出转换为概率:
$$ p = \frac{1}{1 + e^{-z}} $$损失函数与优化
使用对数损失函数(Log Loss)并通过梯度下降法求解参数。
📈 应用场景
- 医学领域:预测疾病风险(如糖尿病、心脏病)
- 金融领域:信用评分与欺诈检测
- 市场营销:用户购买概率预测
- 生物信息学:基因表达分析
💡 示例:鸢尾花数据集分类
```r # 加载数据 data(iris) subset <- subset(iris, Species %in% c("setosa", "versicolor")) model <- glm(Species ~ ., data = subset, family = "binomial") summary(model) ```🧪 实战步骤
- 数据预处理:清洗与特征标准化
- 模型训练:使用
glm()
函数构建逻辑回归模型 - 模型评估:通过混淆矩阵与ROC曲线分析性能
- 特征重要性:使用
variance_inflation_factor
检测多重共线性
📘 扩展阅读
逻辑回归虽简单,但却是理解更复杂模型(如神经网络)的基石!🧠📈