简介
jieba 是一款高效的中文分词工具,支持精确模式、全模式、搜索引擎模式等多种分词方式。它广泛应用于自然语言处理领域,如文本分析、关键词提取等。
安装
使用 pip 安装:
pip install jieba
基础用法
import jieba
text = "自然语言处理是人工智能的分支"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/".join(seg_list))
高级功能
- 自定义词典:通过
jieba.load_userdict
添加专业术语 - 关键词提取:使用
jieba.analyse.textrank
提取核心词汇 - 并行分词:支持多线程加速处理大规模文本
应用场景
- 情感分析
- 文本摘要
- 搜索引擎优化