自然语言处理工具包(Natural Language Toolkit,简称NLTK)是 Python 中用于处理人类语言的库。NLTK 提供了丰富的文本处理功能,包括分词、词性标注、命名实体识别、词频统计等。
主要功能
- 分词:将文本分割成单词或句子。
- 词性标注:识别单词在句子中的词性,如名词、动词、形容词等。
- 命名实体识别:识别文本中的特定实体,如人名、地点、组织等。
- 词频统计:统计文本中单词或短语的频率。
安装
要安装 NLTK,请访问本站链接 NLTK 安装指南。
使用示例
import nltk
from nltk.tokenize import word_tokenize
text = "NLTK 是一个强大的自然语言处理库。"
tokens = word_tokenize(text)
print(tokens)
相关资源
NLTK Logo