📌 数据集结构概览
- 训练集:
train.tsv
(包含text
字段与label
字段,用制表符分隔) - 验证集:
dev.tsv
(格式与训练集一致,用于模型调优) - 测试集:
test.tsv
(仅含text
字段,需自行提交预测结果)
📊 标注规范说明
- 标签格式:采用
BIO
标注法,O
表示无关,B
/I
表示实体开始与延续 - 特殊字符处理:URL、邮箱等需保留原始格式,无需转义
- 多语言支持:中文文本需使用UTF-8编码,英文文本保留ASCII格式
📁 文件格式要求
文件名 | 内容类型 | 格式说明 |
---|---|---|
metadata.json |
元数据文件 | 包含version 、language 字段 |
examples/ |
示例目录 | 存放train_example.txt 等演示文件 |
点击查看数据集下载指南 |
❓ 常见问题解答
- Q: 如何处理数据中的特殊符号?
A: 参考数据清洗教程中的处理规范 - Q: 标注文件缺失如何处理?
A: 联系竞赛组委会邮箱:support@ai-challenger.org