Jieba 是一个优秀的中文分词工具,能够对中文文本进行高效的分词处理。下面将为大家介绍如何使用 Jieba 进行分词。

基础用法

首先,你需要安装 Jieba 库。可以使用以下命令进行安装:

pip install jieba

安装完成后,你可以使用以下代码进行简单的分词操作:

import jieba

text = "今天天气真好,适合出去游玩。"
words = jieba.lcut(text)
print(words)

输出结果为:

['今天', '天气', '真好', ',', '适合', '出去', '游玩', '。']

高级用法

Jieba 支持多种分词模式,包括全模式、精确模式、搜索引擎模式和全模式。

  • 全模式:将句子中所有可以成词的词语都扫描出来,但可能产生大量的冗余信息。
  • 精确模式:尽可能减少冗余信息,但可能会错过一些词语。
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎构建索引的分词。

你可以通过设置 jieba.cut 函数的 cut_all 参数来选择不同的分词模式:

words_full = jieba.cut(text, cut_all=True)
words_exact = jieba.cut(text, cut_all=False)
words_search = jieba.cut_for_search(text)

print("全模式:", words_full)
print("精确模式:", words_exact)
print("搜索引擎模式:", words_search)

输出结果为:

全模式: ('今天', '天气', '真', '好', ',', '适合', '出', '去', '游', '玩', '。')
精确模式: ('今天', '天气', '真好', ',', '适合', '出去', '游玩', '。')
搜索引擎模式: ('今天', '天气', '真好', ',', '适合', '出去', '游玩', '。')

Jieba 官方文档

如果你想了解更多关于 Jieba 的信息,可以访问 Jieba 官方文档

示例图片

下面展示一张与中文分词相关的图片:

中文分词