Natural Language Toolkit (NLTK) 简介

NLTK（Natural Language Toolkit）是一个强大的Python库，用于处理和探索自然语言数据。它提供了大量的模块和接口，可以用于文本处理、词性标注、命名实体识别、句法分析等。

NLTK主要功能

文本预处理：包括分词、词干提取、词形还原等。
词性标注：识别句子中每个单词的词性。
命名实体识别：识别文本中的命名实体，如人名、地点、组织等。
句法分析：分析句子的语法结构。
语义分析：处理文本的语义内容。

NLTK使用示例

假设我们有一个简单的英文句子：

The quick brown fox jumps over the lazy dog.

我们可以使用NLTK库来分析这个句子：

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# 分词
tokens = word_tokenize("The quick brown fox jumps over the lazy dog.")

# 停用词过滤
filtered_words = [word for word in tokens if word not in stopwords.words('english')]

# 词干提取
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_words]

print(lemmatized_words)

输出结果为：

['quick', 'brown', 'fox', 'jumps', 'over', 'lazy', 'dog']

扩展阅读

想要了解更多关于NLTK的信息，可以访问NLTK官网。