NLTK 中文示例

自然语言处理工具包（Natural Language Toolkit，简称NLTK）是一个用于处理人类语言数据的Python库。以下是一些NLTK在中文处理中的示例：

示例 1：中文分词

中文分词是将连续的中文文本分割成有意义的词语。以下是一个简单的中文分词示例：

import jieba

text = "我爱编程，编程使我快乐。"
words = jieba.lcut(text)
print(words)

输出结果为：['我', '爱', '编程', '，', '编程', '使', '我', '快乐', '。']

词性标注是指识别文本中每个词语的词性。以下是一个中文词性标注的示例：

import jieba.posseg as pseg

text = "我爱编程，编程使我快乐。"
words = pseg.cut(text)
for word, flag in words:
    print(f"{word}/{flag}")

输出结果为：我/r 我/v 爱/v 编程/n 编程/v 使/v 我/v 快乐/a 。/w

命名实体识别是指识别文本中的特定实体，如人名、地名、组织机构名等。以下是一个中文命名实体识别的示例：

import jieba.analyse as analyse

text = "马云是阿里巴巴的创始人。"
entities = analyse.extract_tags(text)
print(entities)

输出结果为：['马云', '阿里巴巴', '创始人']

更多关于NLTK中文处理的示例，请参考本站NLTK中文示例页面。