什么是LSTM?
LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),擅长处理序列数据。它通过记忆门机制解决传统RNN的梯度消失问题,广泛应用于:
- 时间序列预测 📈
- 语言模型构建 📘
- 语音识别 🎤
- 机器翻译 🌍
LSTM核心组件
- 遗忘门 - 决定丢弃哪些信息
🚫 用sigmoid函数输出0-1之间的值,1表示保留,0表示丢弃 - 输入门 - 控制新信息的存储
📦 tanh生成候选值,sigmoid决定哪些信息要存入 - 输出门 - 确定输出哪些信息
🚪 sigmoid决定输出内容,tanh对记忆单元做非线性转换