NLTK (Natural Language Toolkit) 是一个强大的 Python 库,用于处理和解析自然语言数据。它提供了丰富的功能,包括文本处理、词性标注、命名实体识别、情感分析等。以下是一些 NLTK 的主要特点:

主要功能

  • 文本处理:NLTK 提供了多种文本处理工具,如分词、词干提取、词形还原等。
  • 词性标注:可以自动标注句子中每个单词的词性,如名词、动词、形容词等。
  • 命名实体识别:可以识别句子中的命名实体,如人名、地名、组织机构名等。
  • 情感分析:可以分析文本的情感倾向,如正面、负面或中性。

安装

pip install nltk

示例

import nltk
from nltk.tokenize import word_tokenize

text = "NLTK is a leading platform for building Python programs to work with human language data."
tokens = word_tokenize(text)
print(tokens)

输出:

['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.']

扩展阅读

Python