NLP 中的损失函数详解

在自然语言处理（NLP）模型训练中，损失函数是指导模型优化的核心。以下是常见类型及应用场景：

1. ⚙️ 交叉熵损失（Cross-Entropy Loss）

用途：分类任务（如文本分类、语言模型）
公式：
$$ L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) $$
特点：对分布差异敏感，常用于概率输出模型

交叉熵损失

2. 📈 均方误差（Mean Squared Error, MSE）

用途：回归任务（如情感分析得分预测）
公式：
$$ L = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 $$
特点：对异常值敏感，适合连续输出场景

均方误差

3. 📌 Hinge 损失

用途：结构化预测（如命名实体识别）
公式：
$$ L = \max(0, 1 - y_i \cdot \hat{y}_i) $$
特点：鼓励正确预测与标签的边界最大化

Hinge损失

4. 🔄 KL 散度（相对熵）

用途：概率分布对齐（如语言模型参数估计）
公式：
$$ D_{KL}(P||Q) = \sum_{i} P(i) \log\left(\frac{P(i)}{Q(i)}\right) $$
特点：衡量两个分布的差异性

KL散度

📌 扩展阅读：想了解如何选择适合的损失函数？可参考 /resources/nlp-tutorials/optimization_methods 中的优化策略指南。