NLTK(自然语言处理工具包)是一个用于处理和解析自然语言文本的 Python 库。它提供了丰富的文本处理功能,包括分词、词性标注、命名实体识别等。

主要功能

  • 分词:将文本分割成单词或短语。
  • 词性标注:识别单词的词性,如名词、动词、形容词等。
  • 命名实体识别:识别文本中的命名实体,如人名、地名、组织机构名等。
  • 词频统计:统计文本中单词或短语的频率。
  • 词形还原:将单词还原到基本形式。

使用方法

要在 Python 中使用 NLTK,首先需要安装 NLTK 库。可以使用以下命令进行安装:

pip install nltk

安装完成后,可以使用以下代码进行简单的文本处理:

import nltk

# 分词
text = "NLTK 是一个强大的自然语言处理库。"
tokens = nltk.word_tokenize(text)
print(tokens)

# 词性标注
tagged = nltk.pos_tag(tokens)
print(tagged)

扩展阅读

更多关于 NLTK 的信息,可以访问 NLTK 官方网站

Python