（python）数据分析-描述性统计

先通过sklearn库,获取鸢尾花数据集;
利用pandas库的describe()函数生成描述性统计信息，它可以快速地对数据进行初步分析，提供关于数据分布、中心趋势和离散程度等方面的信息;
采用频率分布对鸢尾花的花萼宽度进行分析,了解分布特点;
采用百分比分布对鸢尾花的花瓣长度进行分析,了解分布特点;
采用箱型图对鸢尾花的花瓣宽度进行分析,了解分布特点;

代码实现

1.获取数据

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
df = pd.DataFrame(X, columns=iris.feature_names)
print(df.columns)

2.描述性统计

def iris_descriptive_table(df):
    # 使用 describe 函数进行描述性统计
    stats = df.describe()
    # 保留2位小数
    stats = stats.round(2)

    fig, ax = plt.subplots(figsize=(8.8, 4))

    # 隐藏坐标轴
    ax.axis('off')

    # 创建表格
    table = Table(ax, bbox=[0, 0, 1, 1])
    # 设置表格行数和列数
    nrows = stats.shape[0]
    ncols = stats.shape[1]

    # 设置表格标题行
    for j in range(ncols):
        table.add_cell(0, j + 1, width=1 / len(stats.columns), height=1 / len(stats.index), text=stats.columns[j],
                       facecolor='lightblue')

    # 设置表格列标题
    for i in range(nrows):
        table.add_cell(i + 1, 0, width=1 / len(stats.columns), height=1 / len(stats.index), text=stats.index[i],
                       facecolor='lightblue')

    # 填充表格内容
    for i in range(nrows):
        for j in range(ncols):
            val = stats.iloc[i, j]
            table.add_cell(i + 1, j + 1, width=1 / len(stats.columns), height=1 / len(stats.index),
                           text=str(stats.iloc[i, j]))

    ax.add_table(table)
    plt.title("Iris Describe Table")
    # 保存图像
    # plt.savefig('iris_descriptive_stats_table.png', dpi=300)
    # plt.close()
    plt.show()

3.频率分布图

def iris_frequency_distribution(df):
    sepal_widths = df["sepal width (cm)"]

    # 计算频数分布
    hist, bin_edges = np.histogram(sepal_widths, bins=10)

    # 绘制频数分布图
    plt.bar(bin_edges[:-1], hist, width=np.diff(bin_edges), align='edge')
    plt.xlabel('Sepal Width')
    plt.ylabel('Frequency')
    plt.title('Frequency Distribution of Iris Sepal Width')
    # 保存图像
    # plt.savefig('iris_frequency_distribution.png', dpi=300)
    # plt.close()
    plt.show()

3.百分比分布图

def iris_percentage_distribution(df):
    petal_lengths = df["petal length (cm)"]
    # 计算频数分布
    hist, bin_edges = np.histogram(petal_lengths, bins=10)

    # 计算频率分布
    frequencies = hist / len(petal_lengths)

    # 将频率转换为百分数
    percentages = frequencies * 100

    # 绘制频率分布图（以百分数显示 y 轴）
    plt.bar(bin_edges[:-1], percentages, width=np.diff(bin_edges), align='edge')
    plt.xlabel('Petal Length')
    plt.ylabel('Percentage(%)')
    plt.title('Percentage Distribution of Iris Petal Length')
    # plt.savefig('iris_percentage_distribution.png', dpi=300)
    # plt.close()
    plt.show()

4.箱型图

def iris_boxplot(df):
    petal_widths = df["petal width (cm)"]
    # 绘制箱型图
    plt.boxplot(petal_widths)
    plt.xlabel('Iris')
    plt.ylabel('Petal Width')
    plt.title('Box Plot of Iris Petal Width')
    # plt.savefig('iris_boxplot.png', dpi=300)
    # plt.close()
    plt.show()

总结

在不进行复杂的统计分析的情况下，快速提供数据的基本特征。这对于在数据分析的早期阶段了解数据的性质非常有用。

原文地址：https://blog.csdn.net/marst437730201/article/details/145162595

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MongoDB 学习指南与资料分享
下一篇：Vue 页面布局组件-Vuetify、Semantic

【无标题】
JSON（JavaScript Object Notation）是一种轻量级的数据交换格式。
阅读更多2025-01-16
CasaOS小主机如何部署1Panel面板并实现远程管理服务器超实用教程
今天给大家带来一个超实用的神器组合——如何在CasaOS轻NAS系统的香橙派Orange Pi Zero3上使用Docker本地部署1Panel开源Linux服务器运维管理面板，并结合cpolar内网
阅读更多2025-01-16
初识Spring Cloud
‌‌[Spring Cloud]是一个基于[Spring Boot]的微服务架构开发工具，旨在简化分布式系统的开发。它提供了一系列工具和库，帮助开发者快速构建分布式系统中的常见模式，如配置管理、服务发
阅读更多2025-01-16
httpx.AsyncClient报错ProxyError: 504 Gateway Time-out
同一个URL，用requests.get能正常获取网页内容，用httpx.get和httpx.AsyncClient.get就不行，要么就报超时，要么就报ProxyError: 504 Gateway
阅读更多2025-01-16
Sublime Text快捷键
打开命令面板Ctrl + P：快速搜索文件并打开请注意，这些快捷键是基于默认设置的，用户可以根据自己的喜好在 Sublime Text 的设置中自定义快捷键。此外，不同的操作系统可能有一些差异，例如在
阅读更多2025-01-16
Python 异常捕获（详解）
上一篇感觉太多了，应该看完文件和os模块就不太想看最后的异常捕获了，所以这一章单独拿出来写异常捕获，而且里面大部分代码我都有进行详细的解释，各位肯定可以读懂滴拉~~
阅读更多2025-01-16
论文解析 | 基于语言模型的自主代理调查
论文《A Survey on Large Language Model-based Autonomous Agents》对基于大型语言模型（LLM）的自主智能体（Autonomous Agents
阅读更多2025-01-16
数据结构-ArrayLIst-一起探索顺序表的底层实现
数据结构-ArrayLIst-一起探索顺序表的底层实现！
阅读更多2025-01-16
O2O同城系统架构与功能分析
深入分析Java O2O同城系统的技术架构以及功能分析，文末总结做好一个O2O同城系统需要注意的技术要点
阅读更多2025-01-16
基于单片机的智能家居排气扇系统设计
本设计基于单片机的智能家居排气扇系统采用STM32单片机作为主控制器，通过DHT11温湿传感器和MQ-2烟雾传感器实现温度、湿度、烟雾检测，在自动模式下，可以根据烟雾浓度通过PWM调速的方式自动调节排
阅读更多2025-01-16

（python）数据分析-描述性统计

概念

下面操作用到的第三方库

数据来源

处理逻辑

代码实现

1.获取数据

2.描述性统计

3.频率分布图

3.百分比分布图

4.箱型图

总结

相关文章