NLTK Tokenization 简介

NLTK (Natural Language Toolkit) 是一个强大的自然语言处理库，用于处理各种语言任务。Tokenization 是自然语言处理中的一个基本步骤，它将文本分解为更小的单元，如单词、句子或字符。以下是使用 NLTK 进行 Tokenization 的基本方法。

1. 安装 NLTK

首先，确保你已经安装了 NLTK。可以通过以下命令安装：

pip install nltk

在 Python 中，首先需要导入 NLTK：

import nltk

以下是一个简单的例子，展示了如何使用 NLTK 的 word_tokenize 方法进行单词 Tokenization：

from nltk.tokenize import word_tokenize

text = "NLTK 是一个用于自然语言处理的 Python 库。"
tokens = word_tokenize(text)
print(tokens)

输出：

['NLTK', '是', '一个', '用于', '自然', '语言', '处理', '的', 'Python', '库', '。']

NLTK 还提供了句子 Tokenization 的功能。以下是一个例子：

from nltk.tokenize import sent_tokenize

text = "NLTK 是一个用于自然语言处理的 Python 库。它提供了丰富的功能和工具。"
sentences = sent_tokenize(text)
print(sentences)

输出：

['NLTK 是一个用于自然语言处理的 Python 库。', '它提供了丰富的功能和工具。']

想要了解更多关于 NLTK 的内容，可以访问我们的 NLTK 教程。