自学内容网 自学内容网

Pandas的入门操作-DataFrame对象

目录

类型

通过 pd.read_csv('xxx')返回df

将Series对象通过to_frame()转成df

使用列表 加元组返回df

使用字典返回df

DataFrame对象的常用属性和方法

常用属性

常用方法

实例

DataFrame对象的运算

加载数据

字符串的运算

字符串和数字(会报错)

根据下表获取数据


类型

通过 pd.read_csv('xxx')返回df

# 通过 pd.read_csv('xxx') 返回 df
import pandas as pd

df = pd.read_csv('../data/a_scientists.csv')
print(df)
print('-----------------------------')
print(type(df))

将Series对象通过to_frame()转成df

# 将 Series对象 通过 to_frame() 转成 df
s2 = pd.Series(['张三', '李四', '王五'])
print(type(s2))
print('-------------------')
print(type(s2.to_frame()))

使用列表 加元组返回df

# 使用 列表 加 元组 返回 df
studentList = [
    (1, '张三', 18),
    (2, '李四', 14),
    (3, '王五', 19)
]

df3 = pd.DataFrame(studentList, columns=['编号', '姓名', '年龄'], index=['A', 'B', 'C'])
print(df3)
print('----------------')
print(type(df3))

使用字典返回df

# 使用 字典 返回 df
dict1 = {
    "id" : [1, 2, 3],
    "name" : ['张三', '李四', '王五'],
    "city" : ['洛阳', '信阳', '安阳']
}

df4 = pd.DataFrame(dict1)
print(df4)
print('----------------')
print(type(df4))

DataFrame对象的常用属性和方法

加载数据

import pandas as pd

df = pd.read_csv('../data/a_scientists.csv')
df

常用属性

# print('=============== 常用属性 ===============')
# 查看维度, 返回元组类型 -> (行数, 列数), 元素个数代表维度数
# print(df.shape)

# 查看数据值个数, 行数*列数, NaN值也算
# print(df.size)

# 查看数据值, 返回numpy的ndarray类型
print(df.values)
# print('---------------------------')
print(type(df.values))

# 查看维度数
print(df.ndim)

# 返回列名和列数据类型
print(df.dtypes)

# 查看索引值, 返回索引值对象
print(df.index)

# 查看列名, 返回列名对象
print(df.columns)

常用方法

print('=============== 常用方法 ===============')
# # 查看前5行数据
print(df.head())
# # 查看后5行数据
print(df.tail())
print(df.tail(3))
# 
# 查看df的基本信息
print(df.info())
# 
# 查看df对象中所有数值列的描述统计信息
print(df.describe())
# 
# 查看df对象中所有非数值列的描述统计信息
# exclude:不包含指定类型列
print(df.describe(exclude=['int', 'float']))
# 
# 查看df对象中所有列的描述统计信息
# include:包含指定类型列, all代表所有类型
print(df.describe(include='all'))
# 
# 查看df的行数
print(len(df))
# 
# 查看df各列的最小值
print(df.min())
# 
# # 查看df各列的非空值个数
print(df.count())
# 
# # 查看df数值列的平均值
print(df.mean())

实例

import pandas as pd

# 加载数据 ./data/a_scientists.csv
df = pd.read_csv('../data/a_scientists.csv')
df

 求平均年龄

# 求 平均年龄
df['Age'].mean()  # 59.125

求 是否高于平均年龄

# 求 是否高于平均年龄
df['Age'] > df['Age'].mean()

# 求高于平均年龄的数据
df[df['Age'] > df['Age'].mean()]

# 求高于平均年龄的数据(列表)
print(type(df['Age'] > df['Age'].mean()))

print(type(list(df['Age'] > df['Age'].mean())))

print(df[list(df['Age'] > df['Age'].mean())])

DataFrame对象的运算

加载数据

import pandas as pd

# 加载数据 df
df = pd.read_csv('../data/a_scientists.csv')
df

字符串的运算

# 观察 df + df
df + df

字符串和数字(会报错)

# 观察 df + 2 # 报错
df + 2

根据下表获取数据

print(df[df.index.isin([0, 2, 4])])
print('-----------------------------------------')
print(df.loc[[0, 2, 4]])


原文地址:https://blog.csdn.net/weixin_58305115/article/details/142350318

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!