文本分类是自然语言处理(NLP)中的一个基本任务,它可以帮助我们将文本数据分类到预定义的类别中。Python 提供了许多库和工具,可以方便地进行文本分类。

文本分类简介

文本分类是一种监督学习任务,它将文本数据分配到预定义的类别中。例如,我们可以将新闻文章分类为“体育”、“政治”或“科技”类别。

Python 文本分类工具

以下是一些常用的 Python 库,用于进行文本分类:

  • Scikit-learn: 一个强大的机器学习库,提供了许多文本分类算法。
  • NLTK: 自然语言处理工具包,提供了许多文本处理功能。
  • SpaCy: 一个现代、快速的自然语言处理库。

示例教程

以下是一个简单的文本分类示例,使用 Scikit-learn 库:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB

# 示例数据
data = [
    "This is a good movie.",
    "I did not like the movie.",
    "The food was delicious.",
    "The service was terrible."
]

labels = [1, 0, 1, 0]  # 1 表示正面评论,0 表示负面评论

# 数据预处理
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# 模型训练
model = MultinomialNB()
model.fit(X_train, y_train)

# 模型评估
print(model.score(X_test, y_test))

扩展阅读

如果您想了解更多关于 Python 文本分类的信息,请阅读以下教程:

机器学习