线性回归是机器学习中的一种基本算法,用于预测连续值。本文将介绍一个简单的线性回归案例,并解释其背后的原理。
数据集
我们使用一个简单的数据集,其中包含自变量 x
和因变量 y
。以下是数据集的示例:
- x: 1, 2, 3, 4, 5
- y: 2, 4, 5, 4, 5
模型
线性回归模型假设因变量 y
与自变量 x
之间存在线性关系,可以用以下公式表示:
y = mx + b
其中,m
是斜率,b
是截距。
训练模型
为了训练模型,我们需要使用最小二乘法来找到最佳的 m
和 b
值。以下是 Python 代码示例:
import numpy as np
# 数据集
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])
# 计算斜率和截距
m = (np.mean(x) * np.mean(y) - np.mean(x * y)) / (np.mean(x**2) - np.mean(x)**2)
b = np.mean(y) - m * np.mean(x)
# 输出结果
print("斜率:", m)
print("截距:", b)
预测
使用训练好的模型,我们可以预测新的 y
值。例如,当 x
为 6 时,预测的 y
值为:
y = m * 6 + b = 6
扩展阅读
如果你对线性回归有更深入的兴趣,可以阅读以下文章:
**图片插入示例:**
```markdown
## 数据可视化
为了更好地理解线性回归模型,我们可以将数据集绘制成散点图,并添加回归线。
<center><img src="https://cloud-image.ullrai.com/q/data_visualization/" alt="数据可视化"/></center>