NLTK 教程

自然语言处理（NLP）是人工智能领域的一个重要分支，而 NLTK（Natural Language Toolkit）是一个强大的 Python 库，用于处理和分析文本数据。本教程将带你入门 NLTK，了解其基本用法和功能。

安装 NLTK

首先，你需要安装 NLTK 库。你可以通过以下命令进行安装：

pip install nltk

基本操作

1. 导入 NLTK

import nltk

2. 下载语料库

NLTK 提供了大量的语料库，你可以通过以下命令下载：

nltk.download('punkt')

这个命令会下载 NLTK 的分词语料库，用于文本的分词操作。

3. 分词

分词是将文本分割成单词或短语的步骤。以下是使用 NLTK 进行分词的示例：

from nltk.tokenize import word_tokenize

text = "Hello, world!"
tokens = word_tokenize(text)
print(tokens)

输出：

['Hello', ',', 'world', '!']

高级功能

1. 词性标注

词性标注是识别单词在句子中的语法功能。以下是使用 NLTK 进行词性标注的示例：

from nltk.tokenize import word_tokenize
from nltk import pos_tag

text = "I love programming in Python."
tokens = word_tokenize(text)
tags = pos_tag(tokens)
print(tags)

输出：

 [('I', 'PRP'), ('love', 'VB'), ('programming', 'NN'), ('in', 'IN'), ('Python', 'NNP'), ('.', '.')]

2. 词频统计

词频统计是计算文本中每个单词出现的次数。以下是使用 NLTK 进行词频统计的示例：

from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

text = "I love programming in Python. Python is great for programming."
tokens = word_tokenize(text)
freq_dist = FreqDist(tokens)
print(freq_dist.most_common())

输出：

 [('Python', 3), ('programming', 3), ('I', 2), ('love', 2), ('in', 2), ('great', 1), ('for', 1), ('is', 1), ('.', 1), ('the', 1)]

扩展阅读

更多关于 NLTK 的信息和教程，请访问我们的 NLTK 教程页面。

图片展示