📌 数据集结构概览

  • 训练集train.tsv(包含text字段与label字段,用制表符分隔)
  • 验证集dev.tsv(格式与训练集一致,用于模型调优)
  • 测试集test.tsv(仅含text字段,需自行提交预测结果)
数据集_结构

📊 标注规范说明

  1. 标签格式:采用BIO标注法,O表示无关,B/I表示实体开始与延续
  2. 特殊字符处理:URL、邮箱等需保留原始格式,无需转义
  3. 多语言支持:中文文本需使用UTF-8编码,英文文本保留ASCII格式
数据标注_流程

📁 文件格式要求

文件名 内容类型 格式说明
metadata.json 元数据文件 包含versionlanguage字段
examples/ 示例目录 存放train_example.txt等演示文件
点击查看数据集下载指南

❓ 常见问题解答

数据处理_流程图