NLTK (Natural Language Toolkit) 是一个强大的Python库,用于处理和分析自然语言数据。本文将介绍NLTK库中的基础分词功能。

什么是分词?

分词(Tokenization)是将文本分割成有意义的单元(Token)的过程。例如,将句子 "我爱编程" 分割成 "我"、"爱"、"编程"。

NLTK分词方法

NLTK提供了多种分词方法,以下是一些常用的方法:

  • 空格分词:根据空格分割文本。
  • 正则表达式分词:使用正则表达式进行分词。
  • 基于规则的分词:根据规则进行分词。
  • 基于统计的分词:使用统计模型进行分词。

空格分词

from nltk.tokenize import word_tokenize

text = "我爱编程"
tokens = word_tokenize(text)
print(tokens)

正则表达式分词

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')
text = "我爱编程"
tokens = tokenizer.tokenize(text)
print(tokens)

实例:提取文本中的名词

from nltk.tokenize import word_tokenize
from nltk import pos_tag

text = "我爱编程,编程使我快乐。"
tokens = word_tokenize(text)
tags = pos_tag(tokens)

for word, tag in tags:
    if tag.startswith('NN'):
        print(word)

扩展阅读

更多关于NLTK分词的信息,请访问NLTK分词教程

编程