决策树是一种直观且常用的机器学习模型,通过树状结构对数据进行分类或预测。以下是核心要点:
基本概念
决策树由节点和叶子组成:
- 内部节点表示特征判断(如:是否是鸢尾花?)
- 叶子节点表示最终分类结果(如:Setosa, Versicolor, Virginica)
- 分支代表特征值的可能取值
工作原理
- 选择最优特征划分数据(常用指标:信息增益、基尼系数)
- 递归构建子节点,直到满足停止条件(如:叶子节点纯度达标)
- 通过路径从根节点到叶子节点完成预测
优点与缺点
✅ 优点:
- 易于理解和解释
- 可视化直观
- 无需复杂预处理
⚠️ 缺点:
- 容易过拟合(可通过剪枝优化)
- 对连续值处理较弱
应用场景
- 分类任务(如:客户是否流失?)
- 回归预测(如:房价估算)
- 特征选择与重要性分析