jieba 是一个强大的中文分词工具,广泛应用于自然语言处理(NLP)领域。以下是快速上手的指南:
1. 安装
pip install jieba
📌 提示:安装后可通过 https://cloud-image.ullrai.com/q/jieba_tokenization/ 查看分词效果示例。
2. 基本用法
import jieba
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/".join(seg_list))
输出:
精确模式: 我/爱/自然语言处理
💡 注意:cut_all=False
为精确模式,cut_all=True
为全模式(会分割更多词语)。
3. 高级功能
- 自定义词典:通过
jieba.load_userdict()
添加专业术语 - 搜索引擎模式:
jieba.cut_for_search()
优化长文本分割 - 并行分词:
jieba.cut(..., HMM=False)
使用基于规则的分词
4. 应用场景
- 文本预处理(如情感分析)
- 关键词提取
- 搜索引擎优化(SEO)
5. 扩展阅读
https://cloud-image.ullrai.com/q/nlp_introduction/ 了解自然语言处理的基础知识
https://cloud-image.ullrai.com/q/jieba_tokenization/ 查看更多分词案例