Jieba 是一个高效的中文分词工具,广泛用于处理中文文本数据。本教程将带您了解如何使用 Jieba 进行中文分词。
快速开始
安装 Jieba
使用 pip 命令安装 Jieba:
pip install jieba
基础使用
以下是一个简单的分词示例:
import jieba text = "我爱北京天安门,天安门上太阳升。" seg_list = jieba.cut(text) print("/ ".join(seg_list))
输出结果为:
我/ 爱/ 北京/ 天安门/ ,/ 天安门/ 上/ 太阳/ 升/ 。
高级功能
分词模式
Jieba 支持多种分词模式:
- 精确模式:默认模式,试图将句子最精确地切开,适合文本分析。
- 全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
- 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎构建索引的分词。
自定义词典
Jieba 支持自定义词典,可以添加或删除分词词典中的词汇。
jieba.load_userdict("userdict.txt")
其中 userdict.txt
文件包含了自定义词典的词汇。
关键词提取
Jieba 还提供了关键词提取的功能,可以帮助您从文本中提取出关键词。
import jieba.analyse
text = "我爱北京天安门,天安门上太阳升。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print("/ ".join(keywords))
输出结果为:
北京 天安门 太阳 升 天安门
扩展阅读
如果您想了解更多关于 Jieba 的信息,可以参考以下链接:
希望这份教程能帮助您更好地使用 Jieba 进行中文分词!