jieba是一个Python的中文分词库,支持精确模式、全模式和搜索引擎模式。以下是快速入门指南:
安装
pip install jieba
基本用法
import jieba
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:/".join(seg_list))
进阶功能
- 自定义词典:通过
jieba.load_userdict
添加专业术语 - 关键词提取:使用
jieba.analyse.extract_tags
- 并行分词:启用
jieba.enable_parallel