自然语言处理工具包(Natural Language Toolkit,简称NLTK)是一个用于处理人类语言数据的Python库。以下是一些NLTK在中文处理中的示例:

示例 1:中文分词

中文分词是将连续的中文文本分割成有意义的词语。以下是一个简单的中文分词示例:

import jieba

text = "我爱编程,编程使我快乐。"
words = jieba.lcut(text)
print(words)

输出结果为:['我', '爱', '编程', ',', '编程', '使', '我', '快乐', '。']

示例 2:中文词性标注

词性标注是指识别文本中每个词语的词性。以下是一个中文词性标注的示例:

import jieba.posseg as pseg

text = "我爱编程,编程使我快乐。"
words = pseg.cut(text)
for word, flag in words:
    print(f"{word}/{flag}")

输出结果为:我/r 我/v 爱/v 编程/n 编程/v 使/v 我/v 快乐/a 。/w

示例 3:中文命名实体识别

命名实体识别是指识别文本中的特定实体,如人名、地名、组织机构名等。以下是一个中文命名实体识别的示例:

import jieba.analyse as analyse

text = "马云是阿里巴巴的创始人。"
entities = analyse.extract_tags(text)
print(entities)

输出结果为:['马云', '阿里巴巴', '创始人']

更多关于NLTK中文处理的示例,请参考本站NLTK中文示例页面

Python
NLTK
中文分词
词性标注
命名实体识别