NLTK 基础分词教程

NLTK (Natural Language Toolkit) 是一个强大的Python库，用于处理和分析自然语言数据。本文将介绍NLTK库中的基础分词功能。

什么是分词？

分词（Tokenization）是将文本分割成有意义的单元（Token）的过程。例如，将句子 "我爱编程" 分割成 "我"、"爱"、"编程"。

NLTK分词方法

NLTK提供了多种分词方法，以下是一些常用的方法：

空格分词：根据空格分割文本。
正则表达式分词：使用正则表达式进行分词。
基于规则的分词：根据规则进行分词。
基于统计的分词：使用统计模型进行分词。

空格分词

from nltk.tokenize import word_tokenize

text = "我爱编程"
tokens = word_tokenize(text)
print(tokens)

正则表达式分词

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')
text = "我爱编程"
tokens = tokenizer.tokenize(text)
print(tokens)

实例：提取文本中的名词

from nltk.tokenize import word_tokenize
from nltk import pos_tag

text = "我爱编程，编程使我快乐。"
tokens = word_tokenize(text)
tags = pos_tag(tokens)

for word, tag in tags:
    if tag.startswith('NN'):
        print(word)

扩展阅读

更多关于NLTK分词的信息，请访问NLTK分词教程。