Jieba 是 Python 中最流行的中文分词库,支持精确模式、全模式和搜索引擎模式。以下是快速上手指南:
📦 安装 Jieba
pip install jieba
✂️ 基础用法
import jieba
text = "Jieba 是 Python 中最流行的中文分词库"
seg_list = jieba.lcut(text)
print(seg_list) # 输出: ['Jieba', '是', 'Python', '中', '最', '流行', '的', '中文', '分词', '库']
🎯 关键词提取
import jieba.analyse
text = "Jieba 是 Python 中最流行的中文分词库,支持多种分词模式"
keywords = jieba.analyse.extract_tags(text, topK=3)
print(keywords) # 输出: ['中文分词库', 'Jieba', '分词模式']
📌 三种分词模式对比
模式 | 特点 | 示例 |
---|---|---|
精确模式 | 精确切分,适合大多数场景 | jieba.lcut("你好,Jieba!") → ['你好', ',', 'Jieba', '!'] |
全模式 | 全局切分,返回所有可能的词语组合 | jieba.cut("你好Jieba") → ['你', '好', 'Jieba'] |
搜索引擎模式 | 适合搜索引擎场景,长词优先 | jieba.cut_for_search("你好Jieba") → ['你好', 'Jieba'] |
🧪 实战示例
import jieba
# 自定义词典
jieba.load_userdict("custom_dict.txt")
text = "今天天气真不错,Jieba 分词效果很好"
seg_list = jieba.lcut(text)
print(seg_list)
🔗 点击查看 Jieba 官方文档 获取更多高级用法。