NLTK 中文指南

自然语言处理（NLP）是计算机科学、人工智能和语言学的一个交叉领域，NLTK（Natural Language Toolkit）是一个开源的Python库，用于处理人类语言数据。以下是NLTK在中文环境下的使用指南。

安装 NLTK

首先，您需要安装NLTK库。可以通过以下命令进行安装：

pip install nltk

中文分词

中文文本处理的第一步通常是分词，即将文本分割成有意义的单元。NLTK提供了多种分词方法，以下是一个简单的例子：

import jieba

text = "我爱北京天安门"
words = jieba.lcut(text)
print(words)

输出结果：

['我', '爱', '北京', '天安门']

词性标注

词性标注是指识别文本中每个词的词性，如名词、动词、形容词等。NLTK提供了基于规则和统计模型的词性标注工具。

import jieba.posseg as pseg

text = "我爱北京天安门"
words = pseg.cut(text)
for word, flag in words:
    print(f"{word}/{flag}")

输出结果：

我/r
爱/v
北京/n
天安门/n

文本分类

文本分类是将文本数据归类到预定义的类别中。NLTK提供了多种文本分类工具，例如基于朴素贝叶斯分类器的NaiveBayesClassifier。

from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews

# 加载电影评论数据
fileids = movie_reviews.fileids('pos')
positive_features = [(word_features(movie_reviews.words(fileids)), 'positive') for fileids in fileids]

fileids = movie_reviews.fileids('neg')
negative_features = [(word_features(movie_reviews.words(fileids)), 'negative') for fileids in fileids]

# 训练分类器
classifier = NaiveBayesClassifier.train(positive_features + negative_features)

# 测试分类器
test_sentence = "这个电影真的很棒！"
print(classifier.classify(word_features(test_sentence)))

输出结果：

positive

扩展阅读

更多关于NLTK的中文使用指南，请访问NLTK 中文社区。

图片示例