Python 文本清洗教程

文本清洗是数据分析过程中非常重要的一步，它可以帮助我们去除文本中的无用信息，提高数据质量。以下是一些Python文本清洗的基本方法和技巧。

1. 导入必要的库

在Python中进行文本清洗，通常会用到以下库：

jieba：用于中文分词
pandas：用于数据处理
re：用于正则表达式处理

import jieba
import pandas as pd
import re

2. 文本分词

中文文本的分词是文本清洗的第一步，可以使用jieba库来实现。

text = "我爱北京天安门，天安门上太阳升。"
seg_list = jieba.cut(text)
print("分词结果： " + "/ ".join(seg_list))

3. 去除停用词

停用词是指一些无意义的词汇，如“的”、“了”、“在”等。去除停用词可以减少噪声，提高文本质量。

stopwords = set(['的', '了', '在', '是', '有', '和'])
filtered_words = [word for word in seg_list if word not in stopwords]
print("去停用词后的结果： " + "/ ".join(filtered_words))

4. 标点符号处理

文本中常常包含标点符号，这些标点符号对文本分析没有帮助，因此需要进行处理。

punctuation = "，。！？；：（）“”【】《》、"
for punc in punctuation:
    text = text.replace(punc, "")
print("去标点后的结果： " + text)

5. 正则表达式

正则表达式是一个非常强大的工具，可以用来处理复杂的文本清洗任务。

text = "这是一个示例文本，包含电话号码：12345678901。"
phone_pattern = re.compile(r'\d{11}')
cleaned_text = phone_pattern.sub("", text)
print("去除电话号码后的结果： " + cleaned_text)

6. 扩展阅读

更多关于文本清洗的内容，可以参考我们的Python数据清洗教程。