CTB 7.0:中文树库项目,包含新闻语料与句法标注
PKU Treebank:北京大学研发的中文依存句法语料库探索中文分词工具
THUCNews:中文新闻语料库,常用于文本分类任务
BERT-wwm-chinese:基于中文语料的预训练模型了解模型微调方法
RoBERTa-wwm-ext:扩展版中文预训练模型,更大规模语料支持对比中文模型性能
SIGHAN Bakeoff:中文手写识别数据集
Chinese Web Question:中文网络问答数据集,用于问答系统研究查看数据集使用案例