分词是自然语言处理(NLP)中的核心步骤,用于将连续文本分割为有意义的词语或子词单元。NLTK(Natural Language Toolkit)作为Python中流行的NLP库,提供了多种分词工具。以下是基本用法指南:
1. 安装与导入
# 安装NLTK
pip install nltk
# 导入必要模块
import nltk
nltk.download('punkt') # 下载分词模型
from nltk.tokenize import word_tokenize, sent_tokenize
2. 常用分词方法 🛠️
Sentence Tokenizer
用于按句子分割文本
示例:sent_tokenize("Hello! How are you?")
Word Tokenizer
将句子拆分为单词/标点
示例:word_tokenize("NLTK 是强大的工具!")
注意:会保留标点符号为独立token中文分词
需额外安装中文模型:nltk.download('chinese_sentiment') from nltk.tokenize import TreebankWordTokenizer
3. 实践示例 💻
text = "分词对于NLP任务至关重要。它影响后续处理步骤。"
print(sent_tokenize(text)) # 按句子分割
print(word_tokenize(text)) # 按单词/标点分割
4. 扩展阅读
⚠️ 注意:分词效果受语料库影响,建议结合具体场景优化规则。
📌 本站链接示例:NLTK官方文档