NLTK(Natural Language Toolkit)是Python中用于自然语言处理的经典库,适合初学者和研究者快速上手文本分析任务。其功能包括分词、词性标注、情感分析、语法解析等,是探索NLP世界的起点。
🚀 快速入门
安装NLTK
pip install nltk
📌 首次使用需下载语料包:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
核心功能示例
- 分词:将文本拆分为单词或句子
💡 示例:nltk.word_tokenize("Hello, world!")
- 词性标注:识别单词的词性
💡 示例:nltk.pos_tag(nltk.word_tokenize("NLTK is great!"))
- 命名实体识别:提取人名、地名、组织名等
💡 示例:nltk.ne_chunk(nltk.word_tokenize("Apple is located in Cupertino."))
📚 扩展学习
想了解更高效的NLP工具?可访问 spaCy教程 深入学习工业级文本处理方案。