线性回归是机器学习中的一种基本算法,用于预测连续值。本文将介绍一个简单的线性回归案例,并解释其背后的原理。

数据集

我们使用一个简单的数据集,其中包含自变量 x 和因变量 y。以下是数据集的示例:

  • x: 1, 2, 3, 4, 5
  • y: 2, 4, 5, 4, 5

模型

线性回归模型假设因变量 y 与自变量 x 之间存在线性关系,可以用以下公式表示:

y = mx + b

其中,m 是斜率,b 是截距。

训练模型

为了训练模型,我们需要使用最小二乘法来找到最佳的 mb 值。以下是 Python 代码示例:

import numpy as np

# 数据集
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

# 计算斜率和截距
m = (np.mean(x) * np.mean(y) - np.mean(x * y)) / (np.mean(x**2) - np.mean(x)**2)
b = np.mean(y) - m * np.mean(x)

# 输出结果
print("斜率:", m)
print("截距:", b)

预测

使用训练好的模型,我们可以预测新的 y 值。例如,当 x 为 6 时,预测的 y 值为:

y = m * 6 + b = 6

扩展阅读

如果你对线性回归有更深入的兴趣,可以阅读以下文章:


**图片插入示例:**

```markdown
## 数据可视化

为了更好地理解线性回归模型,我们可以将数据集绘制成散点图,并添加回归线。

<center><img src="https://cloud-image.ullrai.com/q/data_visualization/" alt="数据可视化"/></center>