对红酒品质进行数据分析（python）

🕗 发布于 2024-07-13 07:23 数据分析 python 数据挖掘

http://t.csdnimg.cn/UWg2S

数据来源于这篇博客，直接下载好csv文件。

这篇内容均在VScode的jupyter notebook上完成，操作可以看我的另一篇博客：http://t.csdnimg.cn/69sDJ

一、准备工作

1. 导入数据库

#功能是可以内嵌绘图，并且可以省略掉plt.show()这一步，具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
#Seaborn是基于matplotlib的Python可视化库
import seaborn as sns
plt.style.use('ggplot')

# 创建调色板
color = sns.color_palette()
#设置字体等，方便我们在下面使用中文写label
plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style('darkgrid',{'font.sans-serif':['SimHei','Arial']})

import warnings
warnings.filterwarnings('ignore')

# 读取数据
wine_df = pd.read_csv('winequality-red.csv',sep=';')
wine_df.head()

得到下图：

2. 查看文本数量

一个较大的样本通常意味着数据更加全面二号具有代表性，可以减少随机误差的影响，提高分析结果的可靠性。并且大样本量可以增强分析结果的推广性，使得分析结果可以更可靠地推广到更大的总体中。

len(wine_df)

3. 更换文本文件名称为中文

为了方便看表格，将文本文件名称改为中文。

这里的代码很累赘，但是CV大法好！

#把标题换成中文，方便我们看数据
wine_df.rename(columns={"fixed acidity":"固定酸度"},inplace=True)
wine_df.rename(columns={"volatile acidity":"挥发性酸度"},inplace=True)
wine_df.rename(columns={"citric acid":"柠檬酸"},inplace=True)
wine_df.rename(columns={"residual sugar":"残糖"},inplace=True)
wine_df.rename(columns={"chlorides":"氯化物"},inplace=True)
wine_df.rename(columns={"free sulfur dioxide":"游离二氧化硫"},inplace=True)
wine_df.rename(columns={"total sulfur dioxide":"总二氧化硫"},inplace=True)
wine_df.rename(columns={"density":"密度"},inplace=True)
wine_df.rename(columns={"sulphates":"硫酸盐"},inplace=True)
wine_df.rename(columns={"alcohol":"酒精"},inplace=True)
wine_df.rename(columns={"quality":"品质"},inplace=True)

wine_df.head()

4. 查看基本信息

初步了解数据的整体情况，检查数据的完整性，看看数据有没有缺失值，然后确认数据的类型，确定分析方法。

wine_df.info()

得到下面：

二、数据处理

1. 将品质作为表格的索引

在分析过程中，可以根据品质对数据进行分类和聚合。

#按品质分组，查看每组均值，进一步分析数据
wine_df.groupby('品质').mean()

得到如下：

2. 计算相关系数

查看各个理化性质与品质的关系是否紧密。

三、绘制图表

1. 各个品质与理化性质的箱线图

总结得出品质更好的就有更高的柠檬酸、硫酸盐和酒精度数，还具有更低的挥发性酸度、密度。

对于品质优于7或者劣于4的酒，直观上是线性可分的，离群点较少，但是品质5、6的酒很难区分。

下图只展示了品质8，其它的类推：

quality_column = '品质'
factors = ['固定酸度','挥发性酸度','柠檬酸','残糖','氯化物','游离二氧化硫','总二氧化硫','密度','pH','硫酸盐','酒精']  # 确保这里包含了所有你想要绘制箱线图的列名

# 创建一个3x4的网格，用于绘制11个子图
fig, axs = plt.subplots(3, 4, figsize=(10, 10)) 

# 遍历每个因素并绘制箱线图
for i, factor in enumerate(factors):
    # 计算行和列的索引
    row = i // 4
    col = i % 4
    
    # 选择具有特定品质等级的行
    eight_data = wine_df[wine_df[quality_column] == 8]
    
    # 绘制箱线图
    axs[row, col].boxplot(eight_data[factor])
    
    # 设置标题和轴标签
    axs[row, col].set_title(f'{factor}与品质8的关系', fontsize=12)
    axs[row, col].set_ylabel(factor)

# 关闭最后一个子图
axs[2, 3].axis('off')

# 显示图表
plt.tight_layout()
plt.show()

2. 酒精和硫酸盐的数值指标条形图

grouped_df = wine_df.groupby('品质').mean()

#然后我们选出来酒精和硫酸盐两个指标
alcohol_content = grouped_df['酒精']
sulfur_content = grouped_df['硫酸盐']

width = 0.35
ind = np.arange(len(grouped_df.index))
plt.figure(figsize=(13,10))

# 使用matplotlib绘制条形图
plt.bar(ind - width/2, alcohol_content, color='yellowgreen',width=0.35, alpha=0.8,label='酒精')
plt.bar(ind + width/2, sulfur_content, color='green', width=0.35,alpha=0.8, label='硫酸盐')

#添加数据
for i, content in enumerate(alcohol_content):
    plt.text(i-width/2, content + 0.1, str(content), ha='center')  # ha='center' 表示水平对齐方式为居中

for i, content in enumerate(sulfur_content):
    plt.text(i+width/2, content + 0.1, str(content), ha='center')  # ha='center' 表示水平对齐方式为居中
    
# 设置图表标题和轴标签
plt.title('与红酒品质正相关')
plt.xlabel('品质等级')
plt.ylabel('酒精&硫酸盐含量平均值 ')
plt.xticks(ind,[3,4,5,6,7,8])

#添加图例
plt.legend()

# 显示图表
plt.show()

得到如下：

3. 挥发性酸度和总二氧化硫条形图

grouped_df = wine_df.groupby('品质').mean()

#我们选出负相关性强的两个指标：挥发性酸度和总二氧化硫
volatile_acidity_content = grouped_df['挥发性酸度']
sulfur_dioxide_content = grouped_df['总二氧化硫']

width = 0.35
ind = np.arange(len(grouped_df.index))
plt.figure(figsize=(13,10))

# 使用matplotlib绘制条形图
plt.bar(ind + width/2, volatile_acidity_content, color='orangered', alpha=0.8, width=0.35, label='挥发性酸度')
plt.bar(ind - width/2, sulfur_dioxide_content, color='sandybrown', alpha=0.8, width=0.35, label='总二氧化硫')

#添加数据
for i, content in enumerate(sulfur_dioxide_content):
    plt.text(i-width/2, content + 0.1, str(content), ha='center')  # ha='center' 表示水平对齐方式为居中

for i, content in enumerate(volatile_acidity_content):
    plt.text(i+width/2, content + 0.1, str(content), ha='center')  # ha='center' 表示水平对齐方式为居中


# 设置图表标题和轴标签
plt.title('与红酒品质负相关')
plt.xlabel('品质等级')
plt.ylabel('挥发性酸度&总二氧化硫含量平均值 ')

#添加图例
plt.legend()

# 显示图表
plt.show()

得到如下：

4. 挥发性酸度条形图

#总二氧化硫的数据不够理想，现在只保留挥发性酸度的数据

volatile_acidity_content = grouped_df['挥发性酸度']
#sulfur_dioxide_content = grouped_df['总二氧化硫']

width = 0.35
ind = np.arange(len(grouped_df.index))
plt.figure(figsize=(13,10))

# 使用matplotlib绘制条形图
plt.bar(grouped_df.index, volatile_acidity_content, color='sandybrown', alpha=0.8, width=0.3, label='挥发性酸度')
#plt.bar(grouped_df.index, sulfur_dioxide_content, color='sandybrown', alpha=0.8, width=0.3, label='总二氧化硫')


# 设置图表标题和轴标签
plt.title('与红酒品质负相关')
plt.xlabel('品质等级')
plt.ylabel('挥发性酸度含量平均值 ')

#添加图例
plt.legend()

# 显示图表
plt.show()

得到如下：

5. 多变量分析

与品质相关性最高的两个特征是酒精浓度、挥发性酸度。下面图中显示酒精浓度、挥发性酸度的关系。

plt.style.use('ggplot')

sns.lmplot(x='酒精', y='挥发性酸度', hue='品质', data=wine_df, fit_reg=False, scatter_kws={'s': 10}, height=5, aspect=1)

print("Figure 11-1: Scatter Plots of Alcohol, Volatile Acid and Quality")

sns.lmplot(x = '酒精', y = '挥发性酸度', col='品质', hue = '品质', data = wine_df,fit_reg = False, height = 3,  aspect = 0.9, col_wrap=3,scatter_kws={'s':20})
print("Figure 11-2: Scatter Plots of Alcohol, Volatile Acid and Quality")

原文地址：https://blog.csdn.net/2302_80978287/article/details/140378882

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：期货量化交易客户端开源教学第十节——行情列表
下一篇：Android开发中架构模式--MVC/MVP/MVVM

电脑插入U盘，电脑显示新增了，但是双击却显示请将磁盘插入
`CHKDSK 无法供 RAW 驱动器使用` 表明内存卡的文件系统已损坏或丢失，当前处于 **RAW 文件系统** 状态。RAW 表示文件系统无法识别，可能由以下原因导致：
阅读更多2024-11-19
【论文阅读】InstructIR: High-Quality Image Restoration Following Human Instructions
图像恢复是一个基本问题，旨在从退化的图像中恢复出高质量的清晰图像。All-In-One 图像恢复模型能够利用退化特定的信息作为提示，引导恢复模型有效地恢复多种类型和不同程度的退化图像。本研究提出了首个
阅读更多2024-11-19
【Next】字体修改
next/font 包括任何字体文件的内置自动自托管。首先从 next/font/google 导入您想要使用的字体作为函数。（可以按住 ctrl 点进去 google 查看所有字体）然后导入该字体函
阅读更多2024-11-19
Springboot基于GIS的旅游信息管理系统
项目编号：springbootA100基于GIS的旅游信息管理系统是在旅游业迅速发展、旅游需求日益多样化的背景下应运而生的一套综合性信息管理平台，它通过整合旅游资源、提供实时信息、优化服务流程，旨在为
阅读更多2024-11-19
【gitlab】gitlabrunner部署
v /root/gitrunner/config:/etc/gitlab-runner \ ///gitlab-runner的配置目录，挂载在宿主机上方便修改,里面有config.toml配置文
阅读更多2024-11-19
【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）
在科技日新月异的今天，人工智能领域正以前所未有的速度发展，AIGC（人工智能生成内容）成为其中最耀眼的明珠。从其应用场景的不断拓展，到对各行业的深刻变革，AIGC 的影响力无处不在。本报告汇总洞察深入
阅读更多2024-11-19
面向 Java 程序员的 SQLite 替代品
以及 json/xml 格式的数据，反正你听说过和没听说过的数据源都被 esProc 做好了访问接口，只要简单的一两句代码就可以读写。不同的是，SPL 脚本是解释执行的，在修改后就会立即生效，不像存储
阅读更多2024-11-19
无人机电源,270V直流电源,如何供地面通电维护及启动用
270V 直流电源是为无人机地面启动设计的一款高性能电源设备，其输出功率150KVA，并且能够根据不同需求进行定制，输出电压范围在 1-310V 之间连续可调，同时还提供拖车式及柜式组装式等多种定制方
阅读更多2024-11-19
【taro react】 ---- 解决 input 、textarea 层级穿透
使用 alwaysEmbed 在安卓没有效果；使用 input 标签和 view 标签切换，存在抖动问题；使用 visibility: hidden 不能对 input 进行聚焦；使用 positio
阅读更多2024-11-19
提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。
1. 模板库管理与搜索具体作用：提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。使用方式：用户可通过
阅读更多2024-11-19

对红酒品质进行数据分析（python）

一、准备工作

1. 导入数据库

2. 查看文本数量

3. 更换文本文件名称为中文

4. 查看基本信息

二、数据处理

1. 将品质作为表格的索引

2. 计算相关系数

三、 绘制图表

1. 各个品质与理化性质的箱线图

2. 酒精和硫酸盐的数值指标条形图

3. 挥发性酸度和总二氧化硫条形图

4. 挥发性酸度条形图

5. 多变量分析

相关文章

三、绘制图表