机器学习(二)-简单线性回归

🕗 发布于 2024-12-27 02:41 机器学习 线性回归 人工智能

文章目录

在机器学习和统计学中，简单线性回归是一种基础而强大的工具，用于建立自变量与因变量之间的关系。

假设你是一个房产中介，想通过房屋面积来预测房价。简单线性回归可以帮助你找到房屋面积与房价之间的线性关系，进而为客户提供更合理的报价。

本文将带你深入了解简单线性回归的理论基础、公式推导以及如何在Python中实现这一模型。

1. 简单线性回归理论

简单线性回归的基本假设是，因变量 Y（例如房价）与自变量 X（例如人口）之间存在线性关系。我们可以用以下的线性方程来表示这种关系：
在这里插入图片描述

其中：

y 是因变量（我们要预测的变量）。
x 是自变量（我们用来进行预测的变量）。
w0是截距（当x=0) 时，y的值）。
w1是斜率（自变量变化一个单位时，因变量的变化量）。

我们的目标是求 w0和w1的值，来找到一条跟预测值相关的直线。

从图中我们可以看出预测值与真实值之间存在误差，那么我们引入机器学习中的一个概念均方误差，它表示的是这些差值的平方和的平均数。这些误差的表达式如下：
在这里插入图片描述

均方误差的表达式如下：
在这里插入图片描述

2. python通过简单线性回归预测房价

2.1 预测数据

数据如下：

polulation,median_house_value
961,3.03
234,0.68
1074,2.92
1547,4.24
805,2.39
597,1.59
784,2.21
498,1.31
1602,4.28
292,0.54
1499,4.18
718,1.95
180,0.43
1202,3.62
1258,3.48
453,1.08
845,2.31
1032,2.96
384,0.68
896,2.62
425,0.82
928,2.95
1324,3.59
1435,4.02
543,1.62
1132,3.34
328,0.76
638,1.54
1389,3.78
692,1.79

x 轴是人口数量，y轴是房价

2.2导入标准库

# 导入标准库
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import pandas as pd
matplotlib.use('TkAgg')

2.3 导入数据

# 导入数据集
dataset = pd.read_csv('Data.csv')
x = dataset.iloc[:, :-1]
y = dataset.iloc[:, 1]

2.4 划分数据集

# 数据集划分 训练集/测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=0)

2.5 导入线性回归模块

# 简单线性回归算法
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

2.6 对测试集进行预测

# 对测试集进行预测
y_pred = regressor.predict(X_test)

2.7 计算均方误差 J

# 计算J
J = 1/X_train.shape[0] * np.sum((regressor.predict(X_train) - y_train)**2)
print("J = {}".format(J))

输出结果：

J = 0.031198935319832692

2.8 计算参数 w0、w1

# 计算参数 w0、w1
w0 = regressor.intercept_
w1 = regressor.coef_[0]
print("w0 = {}, w1 = {}".format(w0, w1))

输出结果：

w0 = -0.16411984840092098, w1 = 0.0029383965595942067

2.9 可视化训练集拟合结果

# 可视化训练集拟合结果
plt.figure(1)
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('population VS median_house_value (training set)')
plt.xlabel('population')
plt.ylabel('median_house_value')
plt.show()

输出结果：
在这里插入图片描述

可以很好的看到拟合的直线可以很好的表示原始数据的人口和房价的走势

2.10 可视化测试集拟合结果

# 可视化测试集拟合结果
plt.figure(2)
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('population VS median_house_value (test set)')
plt.xlabel('population')
plt.ylabel('median_house_value')
plt.show()

输出结果：
在这里插入图片描述

可以看到，拟合的直线在测试集上的表现是相当不错了，说明我们训练的线性模型有很好的应用效果。

2.11 保存模型

# 保存模型
import pickle
with open('../model/simple_house_price_model.pkl','wb') as file:
    pickle.dump(regressor,file);

2.12 加载模型并预测

import pickle
import numpy as np
import pandas as pd
# 加载模型并预测
with open('../model/simple_house_price_model.pkl','rb') as file:
    model = pickle.load(file)

x_test = np.array([693,694])
x_test = pd.DataFrame(x_test)
x_test.columns=['polulation']
y_pred = model.predict(x_test)
print(y_pred)

输出结果：

[1.87218897 1.87512736]

原文地址：https://blog.csdn.net/dwjf321/article/details/144650348

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：机器学习(三)-多项式线性回归
下一篇：深入理解贪心算法：核心概念与实践

青少年编程与数学 02-005 移动Web编程基础 05课题、rem布局与媒体查询
本文介绍了rem单位和媒体查询在移动Web编程中的应用。rem单位是相对于根元素字体大小的CSS长度单位，适合响应式布局和保持元素间比例一致性。媒体查询允许根据不同设备特性应用不同CSS样式，是响应式
阅读更多2024-12-28
【日常开发】Git Stash使用技巧
git stash是一个强大而灵活的 Git 工具，它为我们在复杂的开发过程中提供了便捷的代码变更管理方式。通过合理运用git stash的各种命令，我们可以在不影响代码版本历史的前提下，轻松地切换工
阅读更多2024-12-28
设计模式-创建型-工厂方法模式
工厂方法模式（Factory Method Pattern）是创建型设计模式之一，目的是通过定义一个用于创建对象的接口，让子类决定实例化哪个类。简而言之，工厂方法模式通过延迟对象的创建过程到子类来减少
阅读更多2024-12-28
Hugging Face PEFT LoRA 指令微调 glm4-9b-chat
Hugging Face 的 PEFT LoRA 指令微调 glm-4-9b-chat。
阅读更多2024-12-28
【基础】卒的遍历（DFS）
在一张n*m的棋盘上（如6行7列）的最左上角（1,1）的位置有一个卒。该卒只能向下或者向右走，且卒采取的策略是先向下，下边走到头就向右，请问从（1,1）点走到（n,m）点可以怎样走，输出这些走法。两个
阅读更多2024-12-28
本地小主机安装HomeAssistant开源智能家居平台打造个人AI管家
大家好！今天我要向大家展示如何将一台迷你的香橙派Zero3转换成你家中的智慧家庭控制枢纽。只需安装CasaOS轻NAS系统和HomeAssistant，再利用cpolar内网穿透工具，你就能轻松地远程
阅读更多2024-12-28
C/C++ 数据结构与算法【哈夫曼树】哈夫曼树详细解析【日常学习，考研必备】带图+详细代码
C/C++ 数据结构与算法【哈夫曼树】哈夫曼树详细解析【日常学习，考研必备】带图+详细代码
阅读更多2024-12-28
实战设计模式之策略模式
与前一篇文章中提到的观察者模式一样，策略模式也是一种行为设计模式。它允许我们定义一系列算法，并将每个算法封装起来，使它们可以互换使用。通过这种方式，策略模式使得算法的变化独立于使用这些算法的客户端，从
阅读更多2024-12-28
单例模式懒汉式、饿汉式（线程安全）
默认的懒汉式单例实现是线程不安全的。要确保线程安全，可以使用同步机制或其他设计模式。推荐静态内部类来实现以下是使用静态内部类实现的单例模式的示例，包括一个main函数，展示如何调用并验证单例的行为。这
阅读更多2024-12-28
leetcode 354. 俄罗斯套娃信封问题
先对所有信封排个序，w从小到大，如果w相同则h从大到小。可以证明从左往右遍历数组，如果h[j] > h[i] && i < j，则 i 可以放进 j 里。排序和求最大递增子
阅读更多2024-12-28

机器学习(二)-简单线性回归

文章目录

1. 简单线性回归理论

2. python通过简单线性回归预测房价

2.1 预测数据

2.2导入标准库

2.3 导入数据

2.4 划分数据集

2.5 导入线性回归模块

2.6 对测试集进行预测

2.7 计算均方误差 J

2.8 计算参数 w0、w1

2.9 可视化训练集拟合结果

2.10 可视化测试集拟合结果

2.11 保存模型

2.12 加载模型并预测

相关文章