文本分类是自然语言处理(NLP)中的一个基本任务,它可以帮助我们将文本数据分类到预定义的类别中。Python 提供了许多库和工具,可以方便地进行文本分类。
文本分类简介
文本分类是一种监督学习任务,它将文本数据分配到预定义的类别中。例如,我们可以将新闻文章分类为“体育”、“政治”或“科技”类别。
Python 文本分类工具
以下是一些常用的 Python 库,用于进行文本分类:
- Scikit-learn: 一个强大的机器学习库,提供了许多文本分类算法。
- NLTK: 自然语言处理工具包,提供了许多文本处理功能。
- SpaCy: 一个现代、快速的自然语言处理库。
示例教程
以下是一个简单的文本分类示例,使用 Scikit-learn 库:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
# 示例数据
data = [
"This is a good movie.",
"I did not like the movie.",
"The food was delicious.",
"The service was terrible."
]
labels = [1, 0, 1, 0] # 1 表示正面评论,0 表示负面评论
# 数据预处理
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)
# 模型训练
model = MultinomialNB()
model.fit(X_train, y_train)
# 模型评估
print(model.score(X_test, y_test))
扩展阅读
如果您想了解更多关于 Python 文本分类的信息,请阅读以下教程:
机器学习