NLTK (Natural Language Toolkit) 是一个强大的Python库,用于处理和分析自然语言数据。本文将介绍NLTK库中的基础分词功能。
什么是分词?
分词(Tokenization)是将文本分割成有意义的单元(Token)的过程。例如,将句子 "我爱编程" 分割成 "我"、"爱"、"编程"。
NLTK分词方法
NLTK提供了多种分词方法,以下是一些常用的方法:
- 空格分词:根据空格分割文本。
- 正则表达式分词:使用正则表达式进行分词。
- 基于规则的分词:根据规则进行分词。
- 基于统计的分词:使用统计模型进行分词。
空格分词
from nltk.tokenize import word_tokenize
text = "我爱编程"
tokens = word_tokenize(text)
print(tokens)
正则表达式分词
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
text = "我爱编程"
tokens = tokenizer.tokenize(text)
print(tokens)
实例:提取文本中的名词
from nltk.tokenize import word_tokenize
from nltk import pos_tag
text = "我爱编程,编程使我快乐。"
tokens = word_tokenize(text)
tags = pos_tag(tokens)
for word, tag in tags:
if tag.startswith('NN'):
print(word)
扩展阅读
更多关于NLTK分词的信息,请访问NLTK分词教程。
编程