欢迎访问 AI Challenger 赛事 NLP 2023 数据集下载页面!以下是关于数据集的详细信息和使用建议:
📌 下载说明
数据集结构
下载的压缩包包含以下文件:train.tsv
(训练数据)dev.tsv
(开发数据)test.tsv
(测试数据)metadata.json
(元数据说明)
文件格式
所有文本文件采用 TSV 格式(制表符分隔),包含以下字段:text
(原始文本)label
(对应标签)source
(数据来源)
数据规模
- 训练集:100,000 条样本
- 开发集:10,000 条样本
- 测试集:50,000 条样本
🧠 使用建议
- 在 数据预处理 时建议使用 Pandas 读取 TSV 文件
- 可通过
metadata.json
查看字段详细定义 - 需要更多竞赛背景信息?请访问 /ai_challenger_competitions/nlp_2023/introduction
📁 文件校验
下载后请检查文件完整性:
- 使用
md5sum
验证校验码 - 确认文件大小与官方公告一致
如需技术支持,请联系 竞赛官方邮箱 📧