Pandas的入门操作-DataFrame对象

🕗 发布于 2024-09-22 23:53 pandas

类型

通过 pd.read_csv('xxx')返回df

将Series对象通过to_frame()转成df

类型

通过 pd.read_csv('xxx')返回df

# 通过 pd.read_csv('xxx') 返回 df
import pandas as pd

df = pd.read_csv('../data/a_scientists.csv')
print(df)
print('-----------------------------')
print(type(df))

将Series对象通过to_frame()转成df

# 将 Series对象 通过 to_frame() 转成 df
s2 = pd.Series(['张三', '李四', '王五'])
print(type(s2))
print('-------------------')
print(type(s2.to_frame()))

使用列表加元组返回df

# 使用 列表 加 元组 返回 df
studentList = [
    (1, '张三', 18),
    (2, '李四', 14),
    (3, '王五', 19)
]

df3 = pd.DataFrame(studentList, columns=['编号', '姓名', '年龄'], index=['A', 'B', 'C'])
print(df3)
print('----------------')
print(type(df3))

使用字典返回df

# 使用 字典 返回 df
dict1 = {
    "id" : [1, 2, 3],
    "name" : ['张三', '李四', '王五'],
    "city" : ['洛阳', '信阳', '安阳']
}

df4 = pd.DataFrame(dict1)
print(df4)
print('----------------')
print(type(df4))

DataFrame对象的常用属性和方法

加载数据

import pandas as pd

df = pd.read_csv('../data/a_scientists.csv')
df

常用属性

# print('=============== 常用属性 ===============')
# 查看维度, 返回元组类型 -> (行数, 列数), 元素个数代表维度数
# print(df.shape)

# 查看数据值个数, 行数*列数, NaN值也算
# print(df.size)

# 查看数据值, 返回numpy的ndarray类型
print(df.values)
# print('---------------------------')
print(type(df.values))

# 查看维度数
print(df.ndim)

# 返回列名和列数据类型
print(df.dtypes)

# 查看索引值, 返回索引值对象
print(df.index)

# 查看列名, 返回列名对象
print(df.columns)

常用方法

print('=============== 常用方法 ===============')
# # 查看前5行数据
print(df.head())
# # 查看后5行数据
print(df.tail())
print(df.tail(3))
# 
# 查看df的基本信息
print(df.info())
# 
# 查看df对象中所有数值列的描述统计信息
print(df.describe())
# 
# 查看df对象中所有非数值列的描述统计信息
# exclude:不包含指定类型列
print(df.describe(exclude=['int', 'float']))
# 
# 查看df对象中所有列的描述统计信息
# include:包含指定类型列, all代表所有类型
print(df.describe(include='all'))
# 
# 查看df的行数
print(len(df))
# 
# 查看df各列的最小值
print(df.min())
# 
# # 查看df各列的非空值个数
print(df.count())
# 
# # 查看df数值列的平均值
print(df.mean())

实例

import pandas as pd

# 加载数据 ./data/a_scientists.csv
df = pd.read_csv('../data/a_scientists.csv')
df

求平均年龄

# 求 平均年龄
df['Age'].mean()  # 59.125

求是否高于平均年龄

# 求 是否高于平均年龄
df['Age'] > df['Age'].mean()

# 求高于平均年龄的数据
df[df['Age'] > df['Age'].mean()]

# 求高于平均年龄的数据(列表)
print(type(df['Age'] > df['Age'].mean()))

print(type(list(df['Age'] > df['Age'].mean())))

print(df[list(df['Age'] > df['Age'].mean())])

DataFrame对象的运算

加载数据

import pandas as pd

# 加载数据 df
df = pd.read_csv('../data/a_scientists.csv')
df

字符串的运算

# 观察 df + df
df + df

字符串和数字(会报错)

# 观察 df + 2 # 报错
df + 2

根据下表获取数据

print(df[df.index.isin([0, 2, 4])])
print('-----------------------------------------')
print(df.loc[[0, 2, 4]])

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142350318

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OJ在线评测系统后端开发数据库初始化工作开发库表建立数据库索引 Mybatis映射初始化接口开发
下一篇：基于YOLOv5的教室人数检测统计系统

多个点安装到点b的距离从小到大排序
多个点安装到点b的距离从小到大排序
阅读更多2024-09-23
UE5学习笔记22-武器瞄准和武器自动开火
绘制武器准心，自动开火，瞄准武器时缩放视场角，复制运动的通知函数，瞄准时准心变色
阅读更多2024-09-23
面试题（二）
综上所述，选择最优的通信机制要考虑具体的应用场景、性能需求、同步要求和实现复杂度等因素。没有绝对的“最优”方案，只有适合的解决方案。在不同的应用场景中，通信机制的“最优”取决于具体需求和环境。（Int
阅读更多2024-09-23
2024/9/21 leetcode 21.合并两个有序链表 2.两数相加
将两个升序链表合并为一个新的链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。[][0]l2。
阅读更多2024-09-23
浅谈Linux中文件与目录的ACL
setfacl是 Linux 系统中用于设置文件和目录的 ACL（访问控制列表）的命令。它允许为特定的用户或用户组指定访问权限，提供比传统的文件权限机制更灵活的权限控制。下面是setfacl的常用选项
阅读更多2024-09-23
Maven-五、属性
使用maven中的属性可以来简化我们的配置工作。在pom文件中可以使用**标签设置属性，属性名自定义,然后可以在使用${属性名}**文件中引用自己定义的属性。使用属性进行配置，在后来修改相关配置时直接
阅读更多2024-09-23
FreeRTOS下UART的封装
FreeRTOS下UART的封装_哔哩哔哩_bilibili
阅读更多2024-09-23
find命令详解
find命令用于在指定的目录及其子目录中查找符合条件的文件和目录。它支持复杂的搜索条件组合，并能对搜索结果执行各种操作，是系统管理员和开发人员日常工作中不可或缺的工具。
阅读更多2024-09-23
网络层协议 —— IP协议
对于网络层IP协议的学习，我们不能局限于IP协议本身，而应通过学习IP协议建立对整个网络的宏观认识。不同主机进行网络通信时，需要能够找到对方，网络层的IP协议便提供了这种能力，主要依靠IP地址。网络的
阅读更多2024-09-23
C++ Linux IPC进程通信-消息队列MQ
相比于共享内存和管道,消息队列能够实现指定的消息格式和排序,能实现更复杂的通信。MQ的复杂度较高,维护成本增加.如果MQ挂了,主服务直接挂了.
阅读更多2024-09-23

Pandas的入门操作-DataFrame对象

类型

通过 pd.read_csv('xxx')返回df

将Series对象通过to_frame()转成df

使用列表 加元组返回df

使用字典返回df

DataFrame对象的常用属性和方法

常用属性

常用方法

实例

DataFrame对象的运算

加载数据

字符串的运算

字符串和数字(会报错)

根据下表获取数据

相关文章

使用列表加元组返回df