Pandas常用数据类型

🕗 发布于 2025-01-14 17:09 pandas python 数据分析 matplotlib 数据结构

扩展库pandas常用的数据结构如下：

（1）Series：带标签的一维数组

（2）DatetimeIndes：时间序列

（3）DateFrame：带标签且大小可变的二维表格结构

（4）Panel：带标签且大小可变的三维数组

1 一维数组与常用操作

Series由索引和值两部分组成，是一个类似于字典的结构。其中值的类型可以不同，如果在创建时没有明确指定索引，则会自动使用从0开始的非负整数作为索引。

import pandas as pd
import matplotlib.pyplot as plt

# 设置输出结果列对齐
pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)

# 自动创建从0开始的非负整数索引
s1=pd.Series(range(1,20,5))
# 使用字典创建Series，使用字典的“键”作为索引
s2=pd.Series({'语文':90,'数学':92,'Python':98,'物理':87,'化学':92})
# 修改指定索引对应的值
s1[3]=-17
s2['语文']=94

print('s1原始数据'.ljust(20,'='))
print(s1,'\n')
print('对s1所有数据求绝对值'.ljust(20,'='))
print(abs(s1),'\n')
print('s1的每行索引前面加上数字2'.ljust(20,'='))
print(s1.add_prefix(2),'\n')

print('s2原始数据'.ljust(20,'='))
print(s2,'\n')
print('s2数据的直方图'.ljust(20,'='))
s2.hist()
plt.show()
print('s2的每行索引后面加上_张三'.ljust(20,'='))
print(s2.add_suffix('_张三'),'\n')
print('s2最大值的索引'.ljust(20,'='))
print(s2.idxmax(),'\n')
print('测试s2的值是否在指定区间内'.ljust(20,'='))
print(s2.between(90,94,inclusive=True),'\n')
print('查看s2中90分以上的数据'.ljust(20,'='))
print(s2[s2>90],'\n')
print('查看s2中大于中值的数据'.ljust(20,'='))
print(s2[s2>s2.median()],'\n')
print('s2与数字之间的运算'.ljust(20,'='))
print(round((s2**0.5)*10,1),'\n')
print('s2中最小的2个值'.ljust(20,'\n'))
print(s2.nsmallest(2),'\n')

# 两个等长Series对象之间可以进行四则运算和幂运算
# 只对两个Series对象中都有的索引对应的值进行计算
# 非共同索引对应的值为空值
print('两个Series对象相加'.ljust(20,'='))
print(pd.Series(range(5))+pd.Series(range(5,10)),'\n')

# pipe()方法可以实现函数链式调用的功能
print('每个值加3之后再乘以3'.ljust(20,'='))
print(pd.Series(range(5)).pipe(lambda x:x+3).pipe(lambda x:x*3),'\n')
print('每个值的平方对5的余数'.ljust(20,'='))
print(pd.Series(range(5)).pipe(lambda x,y,z:(x**y)%z,2,5),'\n')

# apply()方法用来对Series对象的值进行函数运算
print('每个值加3'.ljust(20,'='))
print(pd.Series(range(5)).apply(lambda x:x+3),'\n')

print('标准差、无偏方差、无偏标准差'.ljust(20,'='))
print(pd.Series(range(5)).std(),'\n')
print(pd.Series(range(5)).var(),'\n')
print(pd.Series(range(5)).sem(),'\n')

print('检查是否存在等价于True的值'.ljust(20,'='))
print(any(pd.Series([3,0,True])),'\n')

print('查看是否所有值都等价于True'.ljust(20,'='))
print(all(pd.Series([3,0,True])))

2 时间序列与常用操作

使用pandas的date_range()函数生成时间序列对象：

date_range(start=None,end=None,periods=None,freq='D',tz=None,normalize=False,name=None,closed=None,**kwargs)

（1）start和end用来指定起止日期时间

（2）periods用来指定要生成的数据数量

（3）freq用来指定时间间隔，默认为'D'，表示相邻两个日期之间相差一天

另外，pandas的Timestamp类也支持很多与日期时间有关的操作

import pandas as pd

# start指定起日期，end指定结束日期，periods指定生成的数据数量
# freq指定时间间隔，D表示天，W表示周，H表示小时
# M表示月末最后一天，MS表示月初第一天
# T表示分钟，Y表示年末最后一天，YS表示年初第一天
print('间隔5天'.ljust(30,'='))
print(pd.date_range(start='20190601',end='20190630',freq='5D'),'\n')

print('间隔1周'.ljust(30,'='))
print(pd.date_range(start='20190601',end='20190630',freq='W'),'\n')

print('间隔2天，5个数据'.ljust(30,'='))
print(pd.date_range(start='20190601',periods=5,freq='2D'),'\n')

print('间隔3小时，8个数据'.ljust(30,'='))
print(pd.date_range(start='20190601',periods=8,freq='3H'),'\n')

print('3:00开始，间隔1分钟，12个数据'.ljust(30,'='))
print(pd.date_range(start='201906010300',periods=12,freq='T'),'\n')

print('间隔1月，月末最后一天'.ljust(30,'='))
print(pd.date_range(start='20190101',end='20191231',freq='M'),'\n')

print('间隔1年，6个数据，年末最后一天'.ljust(30,'='))
print(pd.date_range(start='20190101',periods=6,freq='Y'),'\n')

print('间隔1年，6个数据，年初第1天'.ljust(30,'='))
print(pd.date_range(start='20190101',periods=6,freq='YS'),'\n')

# 使用日期时间做索引，创建Series对象
data=pd.Series(index=pd.date_range(start='20190701',periods=24,freq='H'),data=range(24))
print('前5条数据'.ljust(30,'='))
print(data[:5],'\n')

print('3小时重采样，计算均值'.ljust(30,'='))
print(data.resample('3H').mean(),'\n')

print('5小时重采样，求和'.ljust(30,'='))
print(data.resample('5H').sum(),'\n')

# OHLC分别表示OPEN、HIGH、LOW、CLOSE
print('5小时重采样，统计OHLC值'.ljust(30,'='))
print(data.resample('5H').ohlc(),'\n')

print('所有日期替换为第2天'.ljust(30,'='))
data.index=data.index+pd.Timedelta('1D')
print(data[:5],'\n')

print('查看指定日期是周几'.ljust(30,'='))
print(pd.Timestamp('20190323').day_name(),'\n')

print('查看指定日期时间所在年是否为闰年'.ljust(30,'='))
print(pd.Timestamp('20190930').is_leap_year,'\n')

print('查看指定日期所在的季度和月份'.ljust(30,'='))
day=pd.Timestamp('20191025')
print(day.quarter,day.month,'\n')

print('转换为Python的日期时间对象'.ljust(30,'='))
print(day.to_pydatetime())

3 二维数组DataFrame

每个DataFrame对象可以看作一个二维表格，由索引（index）、列名（columns）、值（values）三部分组成。

import numpy as np
import pandas as pd

# 设置输出结果列对齐
pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)

# 在[1,20]区间上生成5行3列15个随机数
# 使用index参数指定索引，columns参数指定每列标题
df=pd.DataFrame(np.random.randint(1,20,(5,3)),index=range(5),columns=['A','B','C'])
print(df,'\n')

print('='*20)
# 模拟2019年7月15日某超市熟食、化妆品、日用品每小时的销量
# 使用时间序列作为索引
df=pd.DataFrame(np.random.randint(5,15,(13,3)),index=pd.date_range(start='201907150900',end='201907152100',freq='H'),columns=['熟食','化妆品','日用品'])
print(df,'\n')

print('='*20)
# 模拟考试成绩，使用人名字符串作为索引
df=pd.DataFrame({'语文':[87,79,67,92],'数学':[93,89,80,77],'英语':[90,80,70,75]},index=['张三','李四','王五','赵六'])
print(df,'\n')

print('='*20)
# 自动对B列数据进行扩充，使其与A列数据一样多
df=pd.DataFrame({'A':range(5,10),'B':3})
print(df)

原文地址：https://blog.csdn.net/2302_80828325/article/details/145115602

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：AT32 bootloader程序与上位机程序
下一篇：【ArcGIS技巧】如何给CAD里的面注记导入GIS属性表中

计算机组成原理--笔记一
存储程序”，将指令以二进制的形式输入到计算机的主存储器中。。。特点，· 计算机有五大部分组成。· 指令和数据以同等地位存于存储器中，可按地址寻访。· 指令和数据用二进制表示。· 指令由操作码和地址码组
阅读更多2025-01-16
MySQL表的增删改查(基础)-下篇
承接上篇文章对MySQL的增删改查进行补充
阅读更多2025-01-16
HPM6700——以太网通信lwip_udpecho_freertos_socket
本示例展示在FreeRTOS系统下的UDP回送通讯PC 通过以太网发送UDP数据帧至MCU，MCU将接收的数据帧回发至PC。
阅读更多2025-01-16
c语言----------内存管理
类型作用域生命周期auto变量一对{}内当前函数static局部变量一对{}内整个程序运行期extern变量整个程序整个程序运行期static全局变
阅读更多2025-01-16
VUE3 组件的使用
组件注册是 Vue.js 开发中的一个基础概念，掌握了组件的注册方式（局部注册和全局注册）以及生命周期钩子、传值机制（props和事件）和插槽等功能，你就能在 Vue 中高效地构建和组织应用程序。通过
阅读更多2025-01-16
RTX 5090 加持，科研服务器如何颠覆 AI 深度学习构架?
RTX 5090 的 Tensor Core 对 FP16 半精度数据的加速支持，结合混合精度训练技术，在保证精度的同时，大幅减少内存占用与计算时间，极大缩短训练周期。在材料科学的量子计算研究中，RT
阅读更多2025-01-16
Mono里运行C#脚本27—X86_64指令寄存器初步了解mono_arch_regname
Mono里运行C#脚本27—X86_64指令寄存器初步了解mono_arch_regname通过前面的分析，我们知道一个程序要运行，要么解释执行，要么编译后执行。JIT是采用即时编译的技术，显然是把程
阅读更多2025-01-16
C# 特性（Attributes）详解
特性（Attributes）是 C# 提供的一种强大的元数据机制，用于在代码中添加描述性信息。它可以附加到程序的各种部分（类、方法、属性、字段等），供运行时或编译时使用。内置特性继承自类。csharp
阅读更多2025-01-16
SQL 中的 JOIN：INNER、LEFT、RIGHT、FULL、Cross、Self 和 Natural Join
JOIN 是一种 SQL 操作符，用于根据相关列将两个或多个表中的数据行组合在一起。在数据库设计中，数据通常分散在多个表中，通过 JOIN 操作可以将这些表中的数据组合起来，以便进行查询和分析。INN
阅读更多2025-01-16
Hessian矩阵 && 通过符号计算解析 Hessian 矩阵
首先，明确需要优化的目标函数 (fxfx) )，其中 (x\mathbf{x}x) 是机器人状态或控制变量。构建Hessian矩阵的关键在于计算目标函数的二阶偏导数，可通过解析或数值方法实现，具体取决
阅读更多2025-01-16

Pandas常用数据类型

1 一维数组与常用操作

2 时间序列与常用操作

3 二维数组DataFrame

相关文章