pandas基础：基本数据结构

🕗 发布于 2025-01-24 14:02 pandas 数据结构

基本数据结构

pandas中具有两种基本的数据存储结构，存储一维values的Series和存储二维values的DataFrame，在这两种结构上定义了很多的属性和方法。

`Series`

Series一般由四个部分组成，分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中，索引也可以指定它的名字，默认为空。

import numpy as np
import pandas as pd

s = pd.Series(
    data = [1,2,3],
    index = ['a','b','c'],
    dtype = object,
    name = 'my_series'
)
print(s)

输出：

a    1
b    2
c    3
Name: my_series, dtype: object

object代表了一种混合类型。np.object被弃用。

print(s.values) # pd.Series.data
print(s.index) # pd.Series.index
print(s.dtype) # pd.Series.dtype
print(s.name) # pd.Series.name

.shape获得Series的形状：

print(s.shape) # (3,)

`DataFrame`

DataFrame在Series的基础上增加了列索引，一个数据框可以由二维的data与行列索引来构造。

import numpy as np
import pandas as pd

data = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

df = pd.DataFrame(
    data = data,
    index = ['row_%d'%i for i in range(1,4)],
    columns = ['col_%d'%i for i in range(1,4)]
)
print(df)

输出：

     col_1  col_2  col_3
row_1      1      2      3
row_2      4      5      6
row_3      7      8      9

采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

import numpy as np
import pandas as pd

df = pd.DataFrame(
    data = {
        'col_1':[1,2,3],
        'col_2':['A','B','C'],
        'col_3':np.random.randn(3)
    },
    index = ['row_1','row_2','row_3']
)
print(df)

输出：

       col_1 col_2     col_3
row_1      1     A -1.677007
row_2      2     B -0.627393
row_3      3     C  0.563569

import numpy as np
import pandas as pd

pd_data = {
    'col_1': [1,2,4],
    'col_2': [4,5,6],
    'col_3': [7,8,9]
}
pd_data_row = ['row_1', 'row_2', 'row_3']
df = pd.DataFrame(
    data = pd_data,
    index = pd_data_row
)
print(df)

输出：

      col_1  col_2  col_3
row_1      1      4      7
row_2      2      5      8
row_3      4      6      9

由于这种映射关系，在DataFrame中可以用[col_name]与[col_list]来取出相应的列与由多个列组成的表，结果分别为Series和DataFrame

import numpy as np
import pandas as pd

pd_data = {
    'col_1': [1,2,4],
    'col_2': [4,5,6],
    'col_3': [7,8,9]
}
pd_data_row = ['row_1', 'row_2', 'row_3']
df = pd.DataFrame(
    data = pd_data,
    index = pd_data_row
)
print(df['col_1']) # Series 一列

输出：

row_1    1
row_2    2
row_3    4
Name: col_1, dtype: int64

既然是Series，那么就可以使用Series的获取方法：

print(df['col_1'].values) # 获取Series的值
# [1 2 4]

两个[]嵌套的是DataFrame类型：

print(df[['col_1']]) # DataFrame 一列
#        col_1
# row_1      1
# row_2      2
# row_3      4

在 pandas 中，当你从DataFrame中选择列时，选择的方式会影响返回的数据类型。具体来说，选择单列时返回的是 Series 类型，而选择多列时返回的是 DataFrame 类型。这种行为是设计上的选择，目的是为了提供更灵活的数据操作方式。

列名选择得到的是Series。

列名列表选择得到的是DataFrame。

同时，DataFrame也有形如Series的获取方法：

print(df.values)
print(df.index)
print(df.columns)
print(df.dtypes)
print(df.shape)
# [[1 4 7]
#  [2 5 8]
#  [4 6 9]]
# Index(['row_1', 'row_2', 'row_3'], dtype='object')
# Index(['col_1', 'col_2', 'col_3'], dtype='object')
# col_1    int64
# col_2    int64
# col_3    int64
# dtype: object
# (3, 3)

Joyful-Pandas-课程详情 | Datawhale

原文地址：https://blog.csdn.net/qq_63432403/article/details/145329769

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：快慢指针及原理证明(swift实现)
下一篇：系统相关类——java.lang.Runtime 类（二）

[java] java基础-字符串篇
public StringJoiner(间隔符号,开始符号,结束符号)：创建一个StringJoiner对象，指定拼接时的间隔符号，开始符号，结束符号。指JDK中提供的各种功能的Java类，这些类将底
阅读更多2025-01-24
【C++笔记】哈希表底层实现的深度剖析
哈喽，各位小伙伴大家好!上期我们讲了使用红黑树封装map和set。今天我们来讲一下哈希表底层实现的深度剖析。话不多说，我们进入正题！向大厂冲锋unordered_set的声明如下，Key就是unord
阅读更多2025-01-24
板球背后的数据魔法：如何用数据分析提升印度板球比赛策略
随着板球赛事的数据日益增多，分析技术和方法不断进步，数据已经成为理解和预测比赛结果的核心工具。无论是通过分析球员的个人表现、球队的整体策略，还是通过实时的比赛数据预测，板球比赛的未来将更加依赖数据驱动
阅读更多2025-01-24
数据分析 six库
six库是Python的一个兼容性库，旨在帮助开发者更轻松地编写同时兼容Python 2和Python 3的代码。它是由Ben Hoyt开发的，最初发布于2010年，并在Python社区中被广泛使用。
阅读更多2025-01-24
系统相关类——java.lang.Runtime 类（二）
小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第二个java.lang.Runtime 类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把
阅读更多2025-01-24
pandas基础：基本数据结构
类型，而选择多列时返回的是 DataFrame 类型。这种行为是设计上的选择，目的是为了提供更灵活的数据操作方式。中，当你从DataFrame中选择列时，选择的方式会影响返回的数据类型。具体来说，选择
阅读更多2025-01-24
快慢指针及原理证明(swift实现)
快慢指针是一种双指针技巧，常用于遍历链表或是数组。优势如下：1.线性时间复杂度：快慢指针能够在O(n)时间内完成遍历，比暴力方法更高效。2.实时处理：无需额外存储大规模数据，可以在流式日志处理中使
阅读更多2025-01-24
【数据库】详解MySQL数据库中索引的本质与底层原理
这个过程叫寻道，所消耗的时间叫做寻道时间。答：局部性原理：当一个数据被用到时，其附近的数据被用到的概率会增大，所以操作系统为了提高效率，读取数据时往往不是按需读取，而是每次都会预读，即使只需要一个字节
阅读更多2025-01-24
如何处理langcleanupsysprepaction.dll文件的丢失与损坏问题
在使用Windows操作系统时，有时可能会遇到一些DLL文件（动态链接库）丢失或损坏的问题，文件也不例外。这个文件虽然不像一些常见的系统DLL文件那样广为人知，但它对于某些特定的系统操作或应用程序来说
阅读更多2025-01-24
Couchbase UI: Indexes
在Couchbase中，索引的这些指标可以帮助你评估索引的性能和状态。
阅读更多2025-01-24

pandas基础：基本数据结构

基本数据结构

Series

DataFrame

相关文章

`Series`

`DataFrame`