Jieba 是一个高效的中文分词工具,广泛用于处理中文文本数据。本教程将带您了解如何使用 Jieba 进行中文分词。

快速开始

  1. 安装 Jieba

    使用 pip 命令安装 Jieba:

    pip install jieba
    
  2. 基础使用

    以下是一个简单的分词示例:

    import jieba
    
    text = "我爱北京天安门,天安门上太阳升。"
    seg_list = jieba.cut(text)
    print("/ ".join(seg_list))
    

    输出结果为:

    我/ 爱/ 北京/ 天安门/ ,/ 天安门/ 上/ 太阳/ 升/ 。
    

高级功能

分词模式

Jieba 支持多种分词模式:

  • 精确模式:默认模式,试图将句子最精确地切开,适合文本分析。
  • 全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎构建索引的分词。

自定义词典

Jieba 支持自定义词典,可以添加或删除分词词典中的词汇。

jieba.load_userdict("userdict.txt")

其中 userdict.txt 文件包含了自定义词典的词汇。

关键词提取

Jieba 还提供了关键词提取的功能,可以帮助您从文本中提取出关键词。

import jieba.analyse

text = "我爱北京天安门,天安门上太阳升。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print("/ ".join(keywords))

输出结果为:

北京 天安门 太阳 升 天安门

扩展阅读

如果您想了解更多关于 Jieba 的信息,可以参考以下链接:

希望这份教程能帮助您更好地使用 Jieba 进行中文分词!