什么是分词?
分词(Tokenization)是NLP的基础步骤,旨在将连续文本划分为有意义的单元(如单词、标点)。
spaCy 是一款高效的 Python 库,内置了多种语言的分词模型,能自动处理复杂语言结构 🚀
快速入门步骤
安装spaCy
pip install spacy
加载语言模型
import spacy nlp = spacy.load("zh_core_web_sm") # 中文模型
执行分词
doc = nlp("自然语言处理是人工智能的重要领域!") for token in doc: print(token.text, token.pos_)
✅ 输出示例:
自然 NOUN 语言 NOUN 处理 NOUN 是 AUX 人工智能 NOUN 的 PART 重要 ADJ 领域 NOUN ! PUNCT
高级功能演示
自定义分词规则
通过tokenize
管道添加专属逻辑,例如处理专有名词或缩写 🧩
📌查看自定义分词教程多语言支持
spaCy 提供了包括英文、中文、法文等 50+ 种语言模型 🌍
🔍 比如:en_core_web_sm
(英文)或fr_core_news_sm
(法文)可视化分析
图片展示spaCy分词后的文本结构,关键词:`tokenization_spacy`
常见问题
❓ 分词为何重要?
分词是后续任务(如词性标注、依存分析)的基石,直接影响模型性能 📈❓ 如何处理未登录词?
使用token.is_alpha
等属性判断,或通过训练自定义模型 🛠️