线性回归是机器学习中的一种基础算法,用于预测连续值。Scikit-learn 是一个强大的机器学习库,它提供了线性回归的实现。本教程将介绍如何使用 Scikit-learn 进行线性回归。

线性回归简介

线性回归旨在找到数据中特征与目标变量之间的线性关系。通过最小化预测值与实际值之间的差异,我们可以训练出一个模型来预测新的数据点。

安装 Scikit-learn

在使用 Scikit-learn 之前,请确保已经安装了它。可以使用以下命令进行安装:

pip install scikit-learn

导入必要的库

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

准备数据

在开始之前,我们需要一些数据。以下是一个简单的数据集,其中包含一些特征和目标变量。

X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([2, 4, 5, 7, 9])

划分数据集

为了评估模型的性能,我们需要将数据集划分为训练集和测试集。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

创建线性回归模型

现在我们可以创建一个线性回归模型,并使用训练集来训练它。

model = LinearRegression()
model.fit(X_train, y_train)

评估模型

使用测试集来评估模型的性能。

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

预测新数据

使用训练好的模型来预测新的数据点。

new_data = np.array([[6, 7]])
prediction = model.predict(new_data)
print(f"Prediction for new data: {prediction}")

扩展阅读

想要了解更多关于 Scikit-learn 的内容,可以访问我们的Scikit-learn 教程

图片

线性回归

Scikit-learn