线性回归是机器学习中的一种基本算法,用于预测连续值。它假设因变量与自变量之间存在线性关系。

基本概念

线性回归的目标是找到最佳拟合线,使得所有数据点到这条线的距离之和最小。

线性回归类型

  • 简单线性回归:只有一个自变量和一个因变量。
  • 多元线性回归:有多个自变量和一个因变量。

线性回归步骤

  1. 数据收集:收集相关数据。
  2. 数据预处理:对数据进行清洗、转换等处理。
  3. 模型训练:使用训练数据训练模型。
  4. 模型评估:使用测试数据评估模型。
  5. 模型优化:根据评估结果调整模型参数。

例子

假设我们要预测房价,自变量可以是房屋面积、房间数等,因变量是房价。

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 假设数据
X = [[100], [150], [200]]
y = [200000, 300000, 400000]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)

扩展阅读

更多关于机器学习的知识,请访问我们的机器学习教程

线性回归图解