线性回归是机器学习中的一种基础算法,用于预测连续值。本教程将介绍如何在 Python 中使用线性回归进行数据分析和预测。

线性回归原理

线性回归通过建立一个线性模型来预测目标变量。模型表达式如下:

$$ y = ax + b $$

其中,$y$ 是目标变量,$x$ 是特征变量,$a$ 是斜率,$b$ 是截距。

安装必要的库

在进行线性回归之前,我们需要安装一些必要的库,如 NumPy 和 scikit-learn。

pip install numpy scikit-learn

创建数据集

以下是一个简单的数据集,其中包含年龄和收入两个特征。

import numpy as np

# 创建数据集
X = np.array([[25, 30000], [30, 35000], [35, 40000], [40, 45000]])
y = np.array([30000, 35000, 40000, 45000])

训练模型

使用 scikit-learn 的 LinearRegression 类来训练模型。

from sklearn.linear_model import LinearRegression

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X, y)

预测结果

使用训练好的模型进行预测。

# 预测年龄为 45 的人的收入
predicted_income = model.predict([[45, 0]])
print(predicted_income)

扩展阅读

想了解更多关于线性回归的知识?请阅读我们的 线性回归进阶教程

图片展示

线性回归模型