分词是自然语言处理(NLP)中的核心步骤,用于将连续文本分割为有意义的词语或子词单元。NLTK(Natural Language Toolkit)作为Python中流行的NLP库,提供了多种分词工具。以下是基本用法指南:

1. 安装与导入

# 安装NLTK
pip install nltk

# 导入必要模块
import nltk
nltk.download('punkt')  # 下载分词模型
from nltk.tokenize import word_tokenize, sent_tokenize

2. 常用分词方法 🛠️

  • Sentence Tokenizer
    用于按句子分割文本
    示例:sent_tokenize("Hello! How are you?")

    分词_示意图
  • Word Tokenizer
    将句子拆分为单词/标点
    示例:word_tokenize("NLTK 是强大的工具!")
    注意:会保留标点符号为独立token

  • 中文分词
    需额外安装中文模型:

    nltk.download('chinese_sentiment')
    from nltk.tokenize import TreebankWordTokenizer
    

3. 实践示例 💻

text = "分词对于NLP任务至关重要。它影响后续处理步骤。"
print(sent_tokenize(text))  # 按句子分割
print(word_tokenize(text))  # 按单词/标点分割

4. 扩展阅读

⚠️ 注意:分词效果受语料库影响,建议结合具体场景优化规则。
📌 本站链接示例:NLTK官方文档