激活函数是神经网络的核心组件,决定了模型的非线性表达能力。以下是常见激活函数及其特性:
常见激活函数类型
ReLU(Rectified Linear Unit)
📈 公式:$ f(x) = \max(0, x) $ ✅ 优点:计算简单,缓解梯度消失问题 ❗ 缺点:可能产生神经元死亡现象Sigmoid
📈 公式:$ f(x) = \frac{1}{1 + e^{-x}} $ ✅ 优点:输出范围限定在0-1,适合二分类问题 ❗ 缺点:输出值趋近于0或1时梯度消失严重Tanh(双曲正切函数)
📈 公式:$ f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} $ ✅ 优点:输出范围-1到1,梯度更饱满 ❗ 缺点:仍存在梯度消失风险
激活函数选择建议
🔹 隐藏层推荐:优先使用ReLU或其变体(如Leaky ReLU)
🔹 输出层推荐:二分类用Sigmoid,多分类用Softmax
🔹 激活函数组合:可尝试在不同层使用不同函数进行实验
扩展阅读
如需了解激活函数的最新研究进展,可访问 /courses/deep_learning/activation_functions_trend 查看相关课程。