课程：Coursera_ML 实践 - 特征工程

什么是特征工程？

特征工程是机器学习流程中至关重要的一步，它涉及从原始数据中提取、转换和选择最有用的特征以提高模型性能。🔍

核心目标：让数据更适合机器学习算法
关键步骤：数据清洗、特征缩放、编码分类变量、特征选择

特征工程_基础

常见特征工程方法

1. 数据清洗

去除缺失值、重复数据和异常值。🧼

使用 pandas 处理缺失值
通过箱线图检测异常值

2. 特征缩放

标准化或归一化数值特征。📏

标准化：$ z = \frac{x - \mu}{\sigma} $
归一化：将特征缩放到 [0, 1] 范围

特征缩放_方法

3. 编码分类变量

将非数值数据转换为模型可接受的格式。🧮

使用 One-Hot Encoding 或 Label Encoding
注意高基数分类变量的处理

4. 特征选择

剔除冗余或无关特征。✂️

基于统计方法（如卡方检验）
基于模型方法（如Lasso回归）

实践建议

避免过拟合：特征工程需与交叉验证结合使用
自动化工具：尝试 scikit-learn 的 SelectKBest 或 PCA
业务理解：特征的物理意义往往比统计显著性更重要

特征选择_实践

扩展学习

想深入了解特征工程的进阶技巧？
点击此处查看「特征工程_高级教程」

特征工程不是简单的数据处理，而是对数据的创造性理解和应用。💡