本项目是关于 Kaggle 平台上的一项数据科学竞赛,主题是分析泰坦尼克号沉船事件中乘客的生存情况。以下是对项目内容的简要概述。
项目背景
泰坦尼克号是一艘著名的邮轮,于 1912 年 4 月 14 日撞上冰山后沉没,造成 1500 多人死亡。此次事件引起了人们对灾难发生原因、乘客生存情况的广泛关注。本项目旨在通过分析泰坦尼克号乘客的数据,探究影响生存的因素。
数据集
本项目使用的数据集包含以下信息:
- 乘客年龄、性别、舱位等级、是否携带儿童、票价等个人信息;
- 乘客是否生还。
分析方法
本项目采用以下分析方法:
- 数据清洗:处理缺失值、异常值等;
- 数据探索:分析乘客的年龄、性别、舱位等级等分布情况;
- 特征工程:创建新的特征,如是否为头等舱乘客、是否携带儿童等;
- 模型训练:使用逻辑回归、决策树等模型预测乘客生存情况。
结果
通过分析,我们发现以下因素对乘客生存情况有显著影响:
- 年龄:年轻人和儿童生存率较高;
- 性别:女性生存率高于男性;
- 舱位等级:头等舱乘客生存率较高;
- 是否携带儿童:携带儿童的乘客生存率较高。
扩展阅读
如果您对泰坦尼克号生存分析项目感兴趣,可以参考以下资源:
泰坦尼克号