Natural Language Toolkit (NLTK) 简介

NLTK (Natural Language Toolkit) 是一个强大的 Python 库，用于处理和解析自然语言数据。它提供了丰富的功能，包括文本处理、词性标注、命名实体识别、情感分析等。以下是一些 NLTK 的主要特点：

主要功能

文本处理：NLTK 提供了多种文本处理工具，如分词、词干提取、词形还原等。
词性标注：可以自动标注句子中每个单词的词性，如名词、动词、形容词等。
命名实体识别：可以识别句子中的命名实体，如人名、地名、组织机构名等。
情感分析：可以分析文本的情感倾向，如正面、负面或中性。

安装

pip install nltk

示例

import nltk
from nltk.tokenize import word_tokenize

text = "NLTK is a leading platform for building Python programs to work with human language data."
tokens = word_tokenize(text)
print(tokens)

输出：

['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.']

扩展阅读

NLTK 官方文档