【Python数据分析】房价预测：使用线性回归模型预测波士顿房价

🕗 发布于 2024-12-01 10:49 python 数据分析线性回归

在这里插入图片描述

博客主页：小馒头学python

本文专栏: Python爬虫五十个小案例

专栏简介：分享五十个Python爬虫小案例

在这里插入图片描述

📝引言

📝房价预测的意义

房价预测对于房地产行业、投资者和政策制定者来说具有重要意义。通过对房价进行准确预测，投资者可以做出更明智的决策，而政策制定者可以更好地理解市场变化，制定相关政策。本博客将使用波士顿房价数据集，通过线性回归模型来预测房价。

📝波士顿房价数据集简介

波士顿房价数据集是一个经典的机器学习数据集，包含了506个样本和13个特征，特征描述了不同的房屋属性和区域特征，目标变量为房屋的中位数房价（以千美元计）。我们将使用这些特征来预测房价。

特征包括：

CRIM: 城区犯罪率
ZN: 住宅用地比例
INDUS: 非零售商业用地比例
CHAS: 是否位于查尔斯河旁（1 = 是，0 = 否）
NOX: 氮氧化物浓度
RM: 每栋住宅的平均房间数
AGE: 建造年代
DIS: 到就业中心的加权距离
RAD: 公路接入指数
TAX: 房产税率
PTRATIO: 学生与教师比例
B: 城市区域内黑人的比例
LSTAT: 低收入人群比例

📝线性回归模型简介

线性回归是一种预测模型，它通过线性关系将自变量与因变量连接起来。我们的目标是根据不同特征（如犯罪率、房屋平均房间数等）预测房价。线性回归模型会拟合一个线性方程，通过最小化预测值与真实值之间的误差，来找到最优的回归系数。

📝数据加载与预处理

📝数据集介绍

首先，我们加载波士顿房价数据集，并查看数据的基本情况。

import pandas as pd
from sklearn.datasets import load_boston

# 加载波士顿房价数据集
boston = load_boston()

# 将数据转化为DataFrame格式
df = pd.DataFrame(boston.data, columns=boston.feature_names)

# 添加目标变量
df['PRICE'] = boston.target

# 查看前几行数据
print(df.head())

📝数据清洗与预处理

检查数据中是否有缺失值，并进行处理。如果存在缺失值，可以选择删除缺失数据或进行填充。

# 检查缺失值
print(df.isnull().sum())

# 在本例中，波士顿数据集没有缺失值，若有缺失值可以使用填充或删除策略

📝特征工程

📝选择特征

在本例中，我们将使用数据集中的所有特征来训练模型，即将所有列作为输入特征，PRICE 列作为目标变量。

# 选择特征和目标变量
X = df.drop(columns='PRICE')  # 输入特征
y = df['PRICE']  # 目标变量

📝数据标准化

因为特征的尺度不同（例如，CRIM为犯罪率，而TAX为税率），我们需要对特征进行标准化处理，使得每个特征具有相同的尺度。这样有助于提升模型的训练效果。

from sklearn.preprocessing import StandardScaler

# 标准化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

📝构建线性回归模型

📝线性回归算法原理

线性回归试图通过以下公式来拟合数据：

在这里插入图片描述

📝模型训练

使用sklearn中的LinearRegression来训练模型

from sklearn.linear_model import LinearRegression

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_scaled, y)

# 查看模型的截距和系数
print(f'截距: {model.intercept_}')
print(f'系数: {model.coef_}')

📝模型评估

📝使用均方误差(MSE)和决定系数(R²)评估模型

模型训练后，我们可以使用均方误差(MSE)和R²评分来评估模型的表现。MSE衡量预测结果和真实结果之间的差异，R²评分表示模型对数据方差的解释程度。

from sklearn.metrics import mean_squared_error, r2_score

# 使用模型进行预测
y_pred = model.predict(X_scaled)

# 计算均方误差（MSE）
mse = mean_squared_error(y, y_pred)
print(f'Mean Squared Error (MSE): {mse}')

# 计算R²得分
r2 = r2_score(y, y_pred)
print(f'R² Score: {r2}')

部分案例示意图如下：
在这里插入图片描述

均方误差（MSE）：这是一个衡量模型预测准确度的指标。它计算了模型预测值与实际值之间差异的平方的平均值。MSE越小，表示模型预测的越准确。在您的例子中，MSE是21.89，意味着平均来说，预测的房价与实际房价相差21.89千美元。
决定系数（R² Score）：这是一个衡量模型好坏的指标，它的值在0到1之间。R²值越接近1，表示模型对数据的解释能力越强，也就是说模型预测的越准确。在您的例子中，R²值是0.7406，这意味着模型可以解释房价变化的74.06%，这是一个相对较高的值，表明模型的预测效果不错。
截距和系数：
- 截距：这是当所有特征都为0时，模型预测的房价。在您的例子中，截距是22.53千美元。
- 系数：这些数字表示每个特征对房价的影响。正系数意味着特征值增加时，房价预测值也会增加；负系数则表示特征值增加时，房价预测值会减少。

📝模型调优

如果模型表现不佳，可以尝试以下调优方法：

选择不同的特征：去掉冗余或不相关的特征。
尝试不同的模型：例如使用岭回归（Ridge）或Lasso回归来改进线性回归模型。

📝总结

📝模型表现总结

通过线性回归模型，我们成功地预测了波士顿的房价，并使用MSE和R²评分对模型进行了评估。虽然线性回归是一个基础模型，但它在许多实际问题中都能提供一个不错的基准。如果感兴趣的小伙伴可以自行尝试其他的数据集进行数据分析~

📝未来改进方向

采用更多先进的模型，如随机森林、梯度提升树（GBDT）等。
针对数据进行更多的特征工程处理，例如特征选择、特征交叉等。
尝试更多的数据集进行模型验证，以提高模型的泛化能力。

若感兴趣可以访问并订阅我的专栏：Python数据分析五十个小案例：https://blog.csdn.net/null18/category_12840404.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12840404&sharerefer=PC&sharesource=null18&sharefrom=from_link
请添加图片描述

原文地址：https://blog.csdn.net/null18/article/details/144096927

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：DimensionX 学习部署笔记
下一篇：QT的槽函数的四种写法

web安全从0到1：burp-suite3
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-12-01
机器学习算法中的距离计算方式详解
在二维空间中，它就是直角三角形的斜边长度，而在更高维度的空间中，它是各维度差值平方和的平方根。这些距离度量在数据分析、机器学习和模式识别等领域中扮演着重要的角色，选择合适的距离度量对于算法的性能和结果
阅读更多2024-12-01
ProtonBase 教育行业解决方案
在此背景下，教育企业亟需探索多源数据的融合扩展，以应对复杂的业务场景，同时还需确保系统简单、扩展性强，且具备先进的架构。该方案依托 ProtonBase 的多云原生和存算分离架构，帮助企业搭建统一的实
阅读更多2024-12-01
泛化调用：在没有接口的情况下进行RPC调用
RPC泛化调用
阅读更多2024-12-01
TensorFlow_T8 猫狗识别
🍨本文为🔗365天深度学习训练营中的学习记录博客🍖K同学啊。
阅读更多2024-12-01
【人工智能】Python常用库-TensorFlow常用方法教程
TensorFlow 是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是 TensorFlow 的详细教程，涵盖基础使用方法和示例代码。TensorFlo
阅读更多2024-12-01
【rust】前端开发中的应用与前景
随着技术的进步和社区的发展，Rust有望在未来的前端开发中扮演更重要的角色。对于前端开发者来说，学习Rust和WebAssembly技术，将为他们的技能树增添新的分支，为构建更高效、更安全的Web应用
阅读更多2024-12-01
[Linux] 进程间通信——匿名管道&&命名管道
[Linux] 进程间通信——匿名管道&&命名管道
阅读更多2024-12-01
深入理解二叉树及其变体：平衡二叉树、红黑树、B-树和B+树
本文将带您了解二叉树及其几种重要变体：平衡二叉树、红黑树、B-树和B+树。通过对这些数据结构的深入剖析，帮助您更好地理解它们的原理、特点及应用场景。
阅读更多2024-12-01
day05 Linux bash核心及目录命令
nmtui：NetworkManager text user interface,网络管理文本用户界面，用于配置和控制 NetworkManager 的工具。手动添加网卡信息223.5.5.5是阿里云
阅读更多2024-12-01

【Python数据分析】房价预测：使用线性回归模型预测波士顿房价

📝引言

📝房价预测的意义

📝波士顿房价数据集简介

📝线性回归模型简介

📝数据加载与预处理

📝数据集介绍

📝数据清洗与预处理

📝特征工程

📝选择特征

📝数据标准化

📝构建线性回归模型

📝线性回归算法原理

📝模型训练

📝模型评估

📝使用均方误差(MSE)和决定系数(R²)评估模型

📝模型调优

📝总结

📝模型表现总结

📝未来改进方向

相关文章