NLTK分词教程：自然语言处理的基础步骤 📚

分词（Tokenization）是自然语言处理（NLP）中的关键预处理步骤，用于将连续的文本分割为有意义的单元（如单词、标点符号等）。NLTK（Natural Language Toolkit）作为Python中常用的NLP库，提供了强大的分词功能。以下是使用NLTK进行分词的详细指南：

1. 安装与导入

首先确保已安装NLTK库，若未安装可通过以下命令安装：

pip install nltk

然后导入相关模块：

import nltk
nltk.download('punkt')  # 下载必要的资源
from nltk.tokenize import word_tokenize, sent_tokenize

text = "分词是NLP的基础步骤。NLTK提供了多种工具。"
tokens = sent_tokenize(text)
print(tokens)

输出：

['分词是NLP的基础步骤。', 'NLTK提供了多种工具。']

words = word_tokenize("NLTK分词教程：自然语言处理的基础步骤")
print(words)

输出：

['NLTK', '分词', '教程', '：', '自然', '语言', '处理', '的', '基础', '步骤', '.']

如需进一步了解其他分词工具，可参考：
Spacy分词教程 📚