什么是分词?

分词(Tokenization)是NLP的基础步骤,旨在将连续文本划分为有意义的单元(如单词、标点)。
spaCy 是一款高效的 Python 库,内置了多种语言的分词模型,能自动处理复杂语言结构 🚀


快速入门步骤

  1. 安装spaCy

    pip install spacy
    

    📎点击了解spaCy安装详情

  2. 加载语言模型

    import spacy
    nlp = spacy.load("zh_core_web_sm")  # 中文模型
    
  3. 执行分词

    doc = nlp("自然语言处理是人工智能的重要领域!")
    for token in doc:
        print(token.text, token.pos_)
    

    ✅ 输出示例:

    自然 NOUN  
    语言 NOUN  
    处理 NOUN  
    是 AUX  
    人工智能 NOUN  
    的 PART  
    重要 ADJ  
    领域 NOUN  
    ! PUNCT
    

高级功能演示

  • 自定义分词规则
    通过 tokenize 管道添加专属逻辑,例如处理专有名词或缩写 🧩
    📌查看自定义分词教程

  • 多语言支持
    spaCy 提供了包括英文、中文、法文等 50+ 种语言模型 🌍
    🔍 比如:en_core_web_sm(英文)或 fr_core_news_sm(法文)

  • 可视化分析

    tokenization_spacy
    图片展示spaCy分词后的文本结构,关键词:`tokenization_spacy`

常见问题

  • ❓ 分词为何重要?
    分词是后续任务(如词性标注、依存分析)的基石,直接影响模型性能 📈

  • ❓ 如何处理未登录词?
    使用 token.is_alpha 等属性判断,或通过训练自定义模型 🛠️


📌 延伸学习:NLP基础概念
📷 尝试其他分词示例