逻辑回归是统计学中一种经典的分类算法,常用于预测二元结果(如“是/否”、“成功/失败”)。尽管名为“回归”,但其本质是分类模型,通过sigmoid函数将线性输出映射到0-1区间,表示概率。

🧠 核心原理

  1. 线性回归基础
    逻辑回归基于线性回归,但对输出进行非线性变换
    $$ \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n $$
    其中 $ p $ 是预测为正类的概率。

  2. Sigmoid函数
    将线性输出转换为概率:
    $$ p = \frac{1}{1 + e^{-z}} $$

    逻辑回归_原理
  3. 损失函数与优化
    使用对数损失函数(Log Loss)并通过梯度下降法求解参数。

📈 应用场景

  • 医学领域:预测疾病风险(如糖尿病、心脏病)
  • 金融领域:信用评分与欺诈检测
  • 市场营销:用户购买概率预测
  • 生物信息学:基因表达分析
💡 示例:鸢尾花数据集分类 ```r # 加载数据 data(iris) subset <- subset(iris, Species %in% c("setosa", "versicolor")) model <- glm(Species ~ ., data = subset, family = "binomial") summary(model) ```

🧪 实战步骤

  1. 数据预处理:清洗与特征标准化
  2. 模型训练:使用 glm() 函数构建逻辑回归模型
  3. 模型评估:通过混淆矩阵与ROC曲线分析性能
  4. 特征重要性:使用 variance_inflation_factor 检测多重共线性
逻辑回归_决策边界

📘 扩展阅读

逻辑回归虽简单,但却是理解更复杂模型(如神经网络)的基石!🧠📈