NLTK 分词基础教程 💡

分词是自然语言处理（NLP）中的核心步骤，用于将连续文本分割为有意义的词语或子词单元。NLTK（Natural Language Toolkit）作为Python中流行的NLP库，提供了多种分词工具。以下是基本用法指南：

1. 安装与导入

# 安装NLTK
pip install nltk

# 导入必要模块
import nltk
nltk.download('punkt')  # 下载分词模型
from nltk.tokenize import word_tokenize, sent_tokenize

Sentence Tokenizer
用于按句子分割文本
示例：sent_tokenize("Hello! How are you?")
Word Tokenizer
将句子拆分为单词/标点
示例：word_tokenize("NLTK 是强大的工具！")
注意：会保留标点符号为独立token

中文分词
需额外安装中文模型：

nltk.download('chinese_sentiment')
from nltk.tokenize import TreebankWordTokenizer

text = "分词对于NLP任务至关重要。它影响后续处理步骤。"
print(sent_tokenize(text))  # 按句子分割
print(word_tokenize(text))  # 按单词/标点分割

⚠️ 注意：分词效果受语料库影响，建议结合具体场景优化规则。
📌 本站链接示例：NLTK官方文档