HanLP Tokenizer 模型文档

HanLP 的 Tokenizer 模型是用于文本分词的核心组件，它可以将文本切分成词或词组。以下是对该模型的基本介绍和使用方法。

模型介绍

Tokenizer 模型主要用于中文分词，支持多种分词模式，包括：

精确模式：将句子最细粒度拆分，适合文本分析。
全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合搜索引擎分词。

使用方法

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;

String text = "这是 HanLP Tokenizer 的示例文本。";
List<Term> terms = HanLP.segment(text);
for (Term term : terms) {
    System.out.println(term);
}

以上代码展示了如何使用 HanLP 的 Tokenizer 模型进行分词。

相关链接

HanLP Tokenizer 模型官方文档

Tokenizer 示例