激活函数是神经网络的核心组件,决定了模型的非线性表达能力。以下是常见激活函数及其特性:

常见激活函数类型

  • ReLU(Rectified Linear Unit)
    📈 公式:$ f(x) = \max(0, x) $

    ReLU
    ✅ 优点:计算简单,缓解梯度消失问题 ❗ 缺点:可能产生神经元死亡现象
  • Sigmoid
    📈 公式:$ f(x) = \frac{1}{1 + e^{-x}} $

    Sigmoid
    ✅ 优点:输出范围限定在0-1,适合二分类问题 ❗ 缺点:输出值趋近于0或1时梯度消失严重
  • Tanh(双曲正切函数)
    📈 公式:$ f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} $

    Tanh
    ✅ 优点:输出范围-1到1,梯度更饱满 ❗ 缺点:仍存在梯度消失风险

激活函数选择建议

🔹 隐藏层推荐:优先使用ReLU或其变体(如Leaky ReLU)
🔹 输出层推荐:二分类用Sigmoid,多分类用Softmax
🔹 激活函数组合:可尝试在不同层使用不同函数进行实验

扩展阅读

如需了解激活函数的最新研究进展,可访问 /courses/deep_learning/activation_functions_trend 查看相关课程。