Jieba 中文分词教程

Jieba 是一个高效的中文分词工具，广泛用于处理中文文本数据。本教程将带您了解如何使用 Jieba 进行中文分词。

快速开始

基础使用

以下是一个简单的分词示例：

import jieba

text = "我爱北京天安门，天安门上太阳升。"
seg_list = jieba.cut(text)
print("/ ".join(seg_list))

输出结果为：

我/ 爱/ 北京/ 天安门/ ，/ 天安门/ 上/ 太阳/ 升/ 。

Jieba 支持多种分词模式：

Jieba 支持自定义词典，可以添加或删除分词词典中的词汇。

jieba.load_userdict("userdict.txt")

其中 userdict.txt 文件包含了自定义词典的词汇。

Jieba 还提供了关键词提取的功能，可以帮助您从文本中提取出关键词。

import jieba.analyse

text = "我爱北京天安门，天安门上太阳升。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print("/ ".join(keywords))

输出结果为：

北京 天安门 太阳 升 天安门

如果您想了解更多关于 Jieba 的信息，可以参考以下链接：

希望这份教程能帮助您更好地使用 Jieba 进行中文分词！