pandas 读写常见文件性能对比

🕗 发布于 2024-01-20 22:46 pandas

1. 背景

pandas在数据分析应用中使用频率非常高的python 库，在数据分析的过程中，读写文件是非常基础的操作，它关系到整个数据分析的性能表现。下面就用程序验证pandas 读写常见几种文件的性能表现。

2. 代码验证

import pandas as pd
import time
import numpy as np


def write_data(df):
    store = pd.HDFStore('D:\\test\\store.h5')
    start = time.time()
    store['df'] = df
    store.close()
    print(f'HDF5存储用时{time.time() - start}秒')

    start = time.time()
    df.to_csv('d:\\test\\df.csv', index=False)
    print(f'csv存储用时{time.time() - start}秒')

    start = time.time()
    df.to_pickle("D:\\test\\df.pickle")
    print(f'pickle存储用时{time.time() - start}秒')

    start = time.time()
    df.to_parquet("D:\\test\\df.parquet")
    print(f'parquet存储用时{time.time() - start}秒')

    start = time.time()
    df.to_feather("D:\\test\\df.feather")
    print(f'feather存储用时{time.time() - start}秒')





def read_data():
    start = time.time()
    store = pd.HDFStore('d:\\test\\store.h5', mode='r')
    df1 = store.get('df')
    print(f'HDF5读取用时{time.time() - start}秒')
    store.close()

    start = time.time()
    df1 = pd.read_csv('d:\\test\\df.csv')
    print(f'csv读取用时{time.time() - start}秒')

    start = time.time()
    df1 = pd.read_pickle('d:\\test\\df.pickle')
    print(f'pickle读取用时{time.time() - start}秒')

    start = time.time()
    df1 = pd.read_parquet('d:\\test\\df.parquet')
    print(f'parquet读取用时{time.time() - start}秒')

    start = time.time()
    df1 = pd.read_feather('d:\\test\\df.feather')
    print(f'feather读取用时{time.time() - start}秒')

if __name__ == '__main__':
    # 生成1亿条5列的随机数据
    data = pd.DataFrame(np.random.rand(100000000, 5))
    write_data(data)
    read_data()

3. 运行结果

	hdf5	csv	pickle	parquet	feather
读取	11.8s	68.9s	3.5s	6.5s	5.3s
写入	4s	532s	3.3s	28.4s	9.4s
文件大小	4.46G	9.06G	3.72G	3.84G	3.72G

从以上表格中可以得出hdf5，pickle，parquet等格式的读写性能以及空间占用均比较好，当进行大量数据的分析时可以考虑使用这些格式。

原文地址：https://blog.csdn.net/cl2010abc/article/details/135307849

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：funcy，一个超酷的 Python 库
下一篇：解密.dataru被困的数据：如何应对.dataru勒索病毒威胁

MoneyPrinterTurbo - AI自动生成高清短视频
MoneyPrinterTurbo是一款基于AI大模型的开源软件，旨在通过一键操作帮助用户自动生成高清短视频。只需提供一个视频主题或 **关键词** ，就可以全自动生成视频文案、视频素材、视频字幕、
阅读更多2024-11-18
跨平台WPF框架Avalonia教程五
在 Avalonia 11 之前，控件主题是使用标准样式创建的。然而，这种方法存在一个根本性的问题：一旦样式被应用到控件上，就没有办法移除它。因此，如果你想为特定的控件实例或用户界面（UI）部分更改
阅读更多2024-11-18
Linux 下网络套接字(Socket) 与udp和tcp 相关接口
Linux下套接字的介绍与使用
阅读更多2024-11-18
react 中 useReducer Hook 作用
useState`是最基本的状态管理钩子。`useReducer`提供了一种更可预测的状态管理方式。
阅读更多2024-11-18
【自学笔记】推荐系统
（Retrieval）步骤的目的是从庞大的候选集合中快速筛选出一小部分最有可能满足用户需求的项目。这样做可以简化梯度计算，更显著的变化是，如果人没有为任何样本打分，那代入TA的初始参数。我们需要做的是
阅读更多2024-11-18
【jvm】方法区是否存在GC
6.在Hotspot虚拟机中，方法区对应的是持久代（PermGen space，在JDK 8及之后被元空间Metaspace取代），尽管持久代上的GC较少，但并不代表完全没有。2.在JVM（Java虚
阅读更多2024-11-18
2411rust,异步函数
2411rust,异步函数
阅读更多2024-11-18
用 Python 从零开始创建神经网络（八）：梯度、偏导数和链式法则
在我们继续编写我们的神经网络代码之前，最后两个需要解决的难题是梯度和偏导数的相关概念。我们到目前为止解决的导数案例都是函数中只有一个独立变量的情况——也就是说，结果完全依赖于xx（在我们的案例中）。然
阅读更多2024-11-18
深度学习之One Stage目标检测算法2
YOLO（You Only Look Once: Unified, Real-Time Object Detection）是one-stage detection的开山之作。之前的物体检测方法首先需要
阅读更多2024-11-18
TCP协议的代理IP是什么？
对于需要大量数据传输和高效通信的场景，代理IP技术提供了至关重要的支持。TCP协议作为互联网通信中最基础和最常用的协议之一，与代理IP技术的结合成为了许多企业和开发者进行网络操作时不可或缺的一部分。那
阅读更多2024-11-18

pandas 读写常见文件性能对比

1. 背景

2. 代码验证

3. 运行结果

相关文章