📚 Jieba 中文分词教程

Jieba 是 Python 中最流行的中文分词库，支持精确模式、全模式和搜索引擎模式。以下是快速上手指南：

📦 安装 Jieba

pip install jieba

✂️ 基础用法

import jieba

text = "Jieba 是 Python 中最流行的中文分词库"
seg_list = jieba.lcut(text)
print(seg_list)  # 输出: ['Jieba', '是', 'Python', '中', '最', '流行', '的', '中文', '分词', '库']

🎯 关键词提取

import jieba.analyse

text = "Jieba 是 Python 中最流行的中文分词库，支持多种分词模式"
keywords = jieba.analyse.extract_tags(text, topK=3)
print(keywords)  # 输出: ['中文分词库', 'Jieba', '分词模式']

📌 三种分词模式对比

模式	特点	示例
精确模式	精确切分，适合大多数场景	`jieba.lcut("你好，Jieba！")` → ['你好', '，', 'Jieba', '！']
全模式	全局切分，返回所有可能的词语组合	`jieba.cut("你好Jieba")` → ['你', '好', 'Jieba']
搜索引擎模式	适合搜索引擎场景，长词优先	`jieba.cut_for_search("你好Jieba")` → ['你好', 'Jieba']

🧪 实战示例

import jieba

# 自定义词典
jieba.load_userdict("custom_dict.txt")

text = "今天天气真不错，Jieba 分词效果很好"
seg_list = jieba.lcut(text)
print(seg_list)

🔗 点击查看 Jieba 官方文档获取更多高级用法。