Jieba 是 Python 中最流行的中文分词库,支持精确模式、全模式和搜索引擎模式。以下是快速上手指南:

📦 安装 Jieba

pip install jieba

✂️ 基础用法

import jieba

text = "Jieba 是 Python 中最流行的中文分词库"
seg_list = jieba.lcut(text)
print(seg_list)  # 输出: ['Jieba', '是', 'Python', '中', '最', '流行', '的', '中文', '分词', '库']

🎯 关键词提取

import jieba.analyse

text = "Jieba 是 Python 中最流行的中文分词库,支持多种分词模式"
keywords = jieba.analyse.extract_tags(text, topK=3)
print(keywords)  # 输出: ['中文分词库', 'Jieba', '分词模式']

📌 三种分词模式对比

模式 特点 示例
精确模式 精确切分,适合大多数场景 jieba.lcut("你好,Jieba!") → ['你好', ',', 'Jieba', '!']
全模式 全局切分,返回所有可能的词语组合 jieba.cut("你好Jieba") → ['你', '好', 'Jieba']
搜索引擎模式 适合搜索引擎场景,长词优先 jieba.cut_for_search("你好Jieba") → ['你好', 'Jieba']

🧪 实战示例

import jieba

# 自定义词典
jieba.load_userdict("custom_dict.txt")

text = "今天天气真不错,Jieba 分词效果很好"
seg_list = jieba.lcut(text)
print(seg_list)

🔗 点击查看 Jieba 官方文档 获取更多高级用法。

jieba_分词效果