数据集概述
本数据集包含10万篇经过清洗的中文新闻文章,涵盖政治、经济、文化、科技等多领域,时间跨度从2010年至2023年。数据来源包括主流媒体及权威新闻平台,已通过NLP预处理去除广告和无效信息。
数据特点
- 📊 多维度标签体系:包含12个主题分类与情感倾向分析
- 🧠 智能分词处理:采用jieba进行精确分词,保留专有名词
- 📁 结构化存储:每篇文章包含标题、正文、发布时间、来源等字段
- 🔄 持续更新机制:每月新增5000篇时效性新闻
应用场景
✅ 新闻推荐系统训练
✅ 情感分析模型优化
✅ 自然语言处理研究
✅ 社会舆情监测分析
数据获取
🔗 点击获取数据集使用指南
📦 支持CSV、JSON、TFRecord三种格式下载
⏱️ 数据更新时间:每月1日自动同步最新数据