文本预处理教程 📚

文本预处理是自然语言处理（NLP）的基础步骤，旨在将原始文本转化为适合模型处理的格式。以下是核心流程与工具推荐：

1. 文本清洗 🧹

步骤：
- 移除标点符号 !@#$%^&*()
- 处理特殊字符（如 HTML 标签、表情符号）
- 去除空白字符（换行符、多余空格）
- 添加图片：

2. 分词 📐

工具：
- 中文：jieba、HanLP
- 英文：NLTK、spaCy
- 添加图片：

3. 词干提取/词形还原 🧠

方法：
- 英文：PorterStemmer、SnowballStemmer
- 中文：基于规则或深度学习模型
- 添加图片：

4. 去除停用词 🚫

常见停用词：
- 中文：的、是、在、有
- 英文：the, is, at, on
- 添加图片：

5. 文本标准化 📚

操作：
- 统一大小写（如 lower()）
- 合并分词结果
- 添加图片：

进一步学习：/[nlp_tutorials/tokenization]