命名实体识别(NER)是NLP领域的核心任务之一,广泛应用于信息提取、问答系统、文本分类等场景。以下为相关学习资源和数据集介绍:
📚 常见NER数据集类型
- CoNLL-2003:经典英文数据集,包含人名(PER)、地点(LOC)、组织机构(ORG)等实体标注
- OntoNotes:多语言标注数据集,支持英文、中文等多种语言
- SQuAD:基于问答的实体识别数据集,包含上下文和问题对
🧠 应用场景示例
- 从新闻文本中提取人名、地名
- 构建智能客服的实体识别模块
- 支持多语言模型的训练与优化