本项目是关于 Kaggle 平台上的一项数据科学竞赛,主题是分析泰坦尼克号沉船事件中乘客的生存情况。以下是对项目内容的简要概述。

项目背景

泰坦尼克号是一艘著名的邮轮,于 1912 年 4 月 14 日撞上冰山后沉没,造成 1500 多人死亡。此次事件引起了人们对灾难发生原因、乘客生存情况的广泛关注。本项目旨在通过分析泰坦尼克号乘客的数据,探究影响生存的因素。

数据集

本项目使用的数据集包含以下信息:

  • 乘客年龄、性别、舱位等级、是否携带儿童、票价等个人信息;
  • 乘客是否生还。

分析方法

本项目采用以下分析方法:

  • 数据清洗:处理缺失值、异常值等;
  • 数据探索:分析乘客的年龄、性别、舱位等级等分布情况;
  • 特征工程:创建新的特征,如是否为头等舱乘客、是否携带儿童等;
  • 模型训练:使用逻辑回归、决策树等模型预测乘客生存情况。

结果

通过分析,我们发现以下因素对乘客生存情况有显著影响:

  • 年龄:年轻人和儿童生存率较高;
  • 性别:女性生存率高于男性;
  • 舱位等级:头等舱乘客生存率较高;
  • 是否携带儿童:携带儿童的乘客生存率较高。

扩展阅读

如果您对泰坦尼克号生存分析项目感兴趣,可以参考以下资源:

泰坦尼克号