在自然语言处理(NLP)模型训练中,损失函数是指导模型优化的核心。以下是常见类型及应用场景:

1. ⚙️ 交叉熵损失(Cross-Entropy Loss)

  • 用途:分类任务(如文本分类、语言模型)
  • 公式
    $$ L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) $$
  • 特点:对分布差异敏感,常用于概率输出模型
交叉熵损失

2. 📈 均方误差(Mean Squared Error, MSE)

  • 用途:回归任务(如情感分析得分预测)
  • 公式
    $$ L = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 $$
  • 特点:对异常值敏感,适合连续输出场景
均方误差

3. 📌 Hinge 损失

  • 用途:结构化预测(如命名实体识别)
  • 公式
    $$ L = \max(0, 1 - y_i \cdot \hat{y}_i) $$
  • 特点:鼓励正确预测与标签的边界最大化
Hinge损失

4. 🔄 KL 散度(相对熵)

  • 用途:概率分布对齐(如语言模型参数估计)
  • 公式
    $$ D_{KL}(P||Q) = \sum_{i} P(i) \log\left(\frac{P(i)}{Q(i)}\right) $$
  • 特点:衡量两个分布的差异性
KL散度

📌 扩展阅读:想了解如何选择适合的损失函数?可参考 /resources/nlp-tutorials/optimization_methods 中的优化策略指南。