Pandas常用数据总览,样本抽检函数

🕗 发布于 2024-10-06 04:09 pandas python 开发语言 数据分析

在进行数据分析的时候,在初步拿到数据表时,往往会需要对数据进行总体上的统计分析,包括数据类型,样本个数,是否有空值,样本抽检呢,以下会介绍较为常用的5个函数,分别是info(),describe(),sample(),head(),tail()

info()

info()函数是用于统计DataFrame的数据类型和非空值数量的函数,演示如下,样例数据集为如下所示

ident,site,dated
619,DR-1,1927-02-08
622,DR-1,1927-02-10
734,DR-3,1939-01-07
735,DR-3,1930-01-12
751,DR-3,1930-02-26
752,DR-3,
837,MSK-4,1932-01-14
844,DR-1,1932-03-22

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.info())

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 8 entries, 0 to 7
# Data columns (total 3 columns):
#  #   Column  Non-Null Count  Dtype 
# ---  ------  --------------  ----- 
#  0   ident   8 non-null      int64 
#  1   site    8 non-null      object
#  2   dated   7 non-null      object
# dtypes: int64(1), object(2)
# memory usage: 324.0+ bytes
# None

可以看到这里的info()函数统计出了在dated列中只有7个非空值,但是可以在rangeindex中看到索引共有8个,所以在dated列中存在一个空值,并且info()函数还显示了三列的数据类型

describe()

describe()是用于显示数值列的统计信息的,可以显示的包括个数,均值,标准差,最小值,最大值,中位数,可选的还有分位数,默认为四分位数也就是0.25和0.75,但是可以手动更改

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.describe())

#             ident
# count    8.000000
# mean   736.750000
# std     83.692891
# min    619.000000
# 25%    706.000000
# 50%    743.000000
# 75%    773.250000
# max    844.000000

如果这里不想显示四分位数,则可以手动修改percentiles参数,注意要以列表形式赋值否则会报错

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.describe(percentiles=[0.1,0.7,0.9]))

#             ident
# count    8.000000
# mean   736.750000
# std     83.692891
# min    619.000000
# 10%    621.100000
# 50%    743.000000
# 70%    751.900000
# 90%    839.100000
# max    844.000000

sample()

sample()函数的作用是按行指定数量的样本抽检,通过设置参数n即可选择抽检数量

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.sample(n=3))

#    ident  site       dated
# 2    734  DR-3  1939-01-07
# 3    735  DR-3  1930-01-12
# 7    844  DR-1  1932-03-22

head()/tail()

head()和tail()函数的作用分别为显示前几行和后几行的数据,默认显示5行,可以通过设置参数n来调整显示数量

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.head())
print(data.tail())

#    ident  site       dated
# 0    619  DR-1  1927-02-08
# 1    622  DR-1  1927-02-10
# 2    734  DR-3  1939-01-07
# 3    735  DR-3  1930-01-12
# 4    751  DR-3  1930-02-26
#    ident   site       dated
# 3    735   DR-3  1930-01-12
# 4    751   DR-3  1930-02-26
# 5    752   DR-3         NaN
# 6    837  MSK-4  1932-01-14
# 7    844   DR-1  1932-03-22

import pandas as pd
import numpy as np

data = pd.read_csv('survey_visited.csv')
print(data.head(n=3))
print(data.tail(n=4))

#    ident  site       dated
# 0    619  DR-1  1927-02-08
# 1    622  DR-1  1927-02-10
# 2    734  DR-3  1939-01-07
#    ident   site       dated
# 4    751   DR-3  1930-02-26
# 5    752   DR-3         NaN
# 6    837  MSK-4  1932-01-14
# 7    844   DR-1  1932-03-22

原文地址：https://blog.csdn.net/bbaaa123/article/details/142606123

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Greiner 经典力学（多体系统和哈密顿力学）第六章学习笔记
下一篇：LC刷题专题：堆、大顶堆、小顶堆

curses函数库简介及使用
curses函数库主要用来实现对屏幕和光标的操作，它的功能定位处于简单文本行程序和完全图形化界面之间，在目前图形化界面已经蓬勃发展的现在可能显得有些过时，但是其中很多实现思想和操作仍然值得学习和借鉴，
阅读更多2024-10-07
如何避免任务延误：从原因到策略的全面解析
任务完成度与计划不一致，对此情况进行分析，找到原因及如何规避。
阅读更多2024-10-07
Ubuntu有关redis的命令
Ubuntu有关redis的命令
阅读更多2024-10-07
【C++第十七章】二叉搜索树
二叉搜索树
阅读更多2024-10-07
MVVM 架构模式：解耦、可测试与高效
MVVM 是一种软件架构模式，主要由Model（模型）View（视图）和ViewModel（视图模型）三部分组成。Model：模型层，负责管理应用的业务逻辑和数据。它是与服务器通信的核心，也是数据处理
阅读更多2024-10-07
Flutter组件化开发
在Flutter中，小部件的强大之处在于它们的可组合性。小部件可以嵌套并排列成树状结构，形成一个层次结构，其中每个小部件都有特定的用途，并为整个UI做出贡献。Flutter中的小部件有两种类型:无状态
阅读更多2024-10-07
基于猎豹优化算法（The Cheetah Optimizer，CO）的多无人机协同三维路径规划（提供MATLAB代码）
猎豹优化算法（The Cheetah Optimizer，CO）由MohammadAminAkbari等人于2022年提出，该算法性能高效，思路新颖。参考文献： Akbari, M.A., Zare,
阅读更多2024-10-07
python 实现lstm prediction预测算法
LSTM（Long Short-Term Memory，长短期记忆网络）预测算法是一种在时间序列预测中广泛使用的深度学习技术。LSTM是RNN（递归神经网络）的一种变体，它特别适用于处理和预测间隔和延
阅读更多2024-10-07
模拟实现消息队列（基于SpringBoot实现）
模拟实现消息队列
阅读更多2024-10-07
zutilo不支持zotero7，zotero7实现复制条目链接方法。
在translators文件夹下新建一个Markdown ZotSelect.js文件之后关闭Zotero重新启动之后，在设置→导出选择该格式，之后可使用快捷键Ctl+Shift+C快速复制条目链接。
阅读更多2024-10-07

Pandas常用数据总览,样本抽检函数

info()

describe()

sample()

head()/tail()

相关文章