使用spaCy进行自然语言处理（NLP）之分词教程 📚

什么是分词？

分词（Tokenization）是NLP的基础步骤，旨在将连续文本划分为有意义的单元（如单词、标点）。
spaCy 是一款高效的 Python 库，内置了多种语言的分词模型，能自动处理复杂语言结构 🚀

加载语言模型

import spacy
nlp = spacy.load("zh_core_web_sm")  # 中文模型

执行分词

doc = nlp("自然语言处理是人工智能的重要领域！")
for token in doc:
    print(token.text, token.pos_)

✅ 输出示例：

自然 NOUN  
语言 NOUN  
处理 NOUN  
是 AUX  
人工智能 NOUN  
的 PART  
重要 ADJ  
领域 NOUN  
！ PUNCT

自定义分词规则
通过 tokenize 管道添加专属逻辑，例如处理专有名词或缩写 🧩
📌查看自定义分词教程
多语言支持
spaCy 提供了包括英文、中文、法文等 50+ 种语言模型 🌍
🔍 比如：en_core_web_sm（英文）或 fr_core_news_sm（法文）
可视化分析
图片展示spaCy分词后的文本结构，关键词：`tokenization_spacy`