jieba 是一个强大的中文分词工具,广泛应用于自然语言处理(NLP)领域。以下是快速上手的指南:

1. 安装

pip install jieba

📌 提示:安装后可通过 https://cloud-image.ullrai.com/q/jieba_tokenization/ 查看分词效果示例。

2. 基本用法

import jieba

text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/".join(seg_list))

输出:

精确模式: 我/爱/自然语言处理

💡 注意cut_all=False 为精确模式,cut_all=True 为全模式(会分割更多词语)。

3. 高级功能

  • 自定义词典:通过 jieba.load_userdict() 添加专业术语
  • 搜索引擎模式jieba.cut_for_search() 优化长文本分割
  • 并行分词jieba.cut(..., HMM=False) 使用基于规则的分词

4. 应用场景

  • 文本预处理(如情感分析)
  • 关键词提取
  • 搜索引擎优化(SEO)

5. 扩展阅读

https://cloud-image.ullrai.com/q/nlp_introduction/ 了解自然语言处理的基础知识
https://cloud-image.ullrai.com/q/jieba_tokenization/ 查看更多分词案例

jieba_tokenization
nlp_introduction