Pandas 33个冷知识 0719

🕗 发布于 2024-07-19 17:42 pandas 机器学习 数据挖掘

Pandas 33个冷知识

选取前n行: 使用 df.head(n) 来选取DataFrame的前n行。
选取后n行: 使用 df.tail(n) 来选取DataFrame的后n行。
按索引选取行: 使用 df.loc[10:20] 按索引选取第10到20行的数据。
按位置选取行: 使用 df.iloc[0:5] 按位置选取前5行的数据。
分箱操作: 使用 pd.cut(df['col'], bins=3) 将列数据分箱。
qcut操作: 使用 pd.qcut(df['col'], q=4) 将列数据按分位数分箱。
采样: 使用 df.sample(frac=0.5) 随机采样一半的数据。
采样（指定数量）: 使用 df.sample(n=100) 随机采样100条数据。
分组排名: 使用 df.groupby('col').rank() 对分组后的数据进行排名。
移除多级索引: 使用 df.columns = df.columns.get_level_values(0) 移除多级索引。
条件填充: 使用 df['col'].where(df['col'] > 0, 0) 根据条件填充值。
类别计数: 使用 df['col'].value_counts(normalize=True) 计算类别的相对频率。
日期提取: 使用 df['date'].dt.year 提取年份。
创建时间序列: 使用 pd.date_range(start='1/1/2022', end='12/31/2022') 创建一个时间序列。
日期差值: 使用 df['date_diff'] = (df['end_date'] - df['start_date']).dt.days 计算日期差值。
删除多列: 使用 df.drop(['col1', 'col2'], axis=1) 删除多列。
按列计算唯一值个数: 使用 df.nunique() 计算每列的唯一值个数。
批量替换: 使用 df.replace({'old_val1': 'new_val1', 'old_val2': 'new_val2'}) 进行批量替换。
分组聚合: 使用 df.groupby('col').agg({'col1': 'sum', 'col2': 'mean'}) 进行分组聚合操作。
自定义聚合函数: 使用 df.groupby('col').agg(lambda x: x.max() - x.min()) 自定义聚合函数。
数据透视表（多列值）: 使用 pd.pivot_table(df, values=['col1', 'col2'], index='col3', columns='col4') 创建多列值的数据透视表。
数据合并（内连接）: 使用 pd.merge(df1, df2, on='key', how='inner') 进行内连接。
数据合并（外连接）: 使用 pd.merge(df1, df2, on='key', how='outer') 进行外连接。
数据合并（左连接）: 使用 pd.merge(df1, df2, on='key', how='left') 进行左连接。
数据合并（右连接）: 使用 pd.merge(df1, df2, on='key', how='right') 进行右连接。
多索引分组: 使用 df.groupby(['col1', 'col2']).sum() 进行多索引分组。
跨列操作（按行）: 使用 df.apply(lambda x: x['col1'] * x['col2'], axis=1) 进行跨列操作。
跨列操作（按列）: 使用 df.apply(lambda x: x.mean(), axis=0) 进行跨列操作。
行列转换: 使用 df.T 进行行列转换。
计算变异系数: 使用 (df.std() / df.mean()) 计算每列的变异系数。
扩展数据: 使用 df.explode('col') 将列表扩展为多行。
查找并替换: 使用 df.replace(to_replace='old', value='new') 查找并替换指定值。
保存为HTML: 使用 df.to_html('output.html') 将DataFrame保存为HTML文件。

原文地址：https://blog.csdn.net/liudadaxuexi/article/details/140446829

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Nginx详解（超级详细）
下一篇：【每天值得看】文章获得《每天值得看》人工智能板块推荐第三名！为自己点个赞！！！

sql server 查看io资源使用
如果输出physical reads 或者 read-ahead reads 大于0 ，则表示有物理读取。
阅读更多2024-11-14
opencv入门学习总结
import cv2 # 返回当前安装的 OpenCV 库的版本信息并且是字符串格式 print(cv2 . getVersionString()) """作用：它可以
阅读更多2024-11-14
stable-diffusion-3 ，每天免费试用
官方space，童叟无欺，科学试用。
阅读更多2024-11-14
AI绘画经验（stable-diffusion）
在Stable Diffusion中，编码器将图像压缩成一个较小的Latent特征向量，这个向量包含了图像的关键信息，并且可以作为U-Net的输入。在Stable Diffusion中，文本编码器用于
阅读更多2024-11-14
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
阅读更多2024-11-14
vLLM×Milvus：如何高效管理GPU内存，减少大模型幻觉
大语言模型（LLM）是功能丰富且强大的 AI 系统，能够解决各个领域内的众多问题。它们的发展速度非常快，新模型不断被频繁推出。通常，新推出的 LLM 在处理各种任务时的性能更好。例如 Mistral、
阅读更多2024-11-14
一个功能强大的文档解析和转换工具，支持PDF、DOCX、PPTX和Markdown等
Docling是一个功能强大的文档解析和转换工具，支持多种文档格式，提供先进的PDF理解功能，并允许用户将文档转换为Markdown和JSON格式。它还具有元数据提取、OCR支持、无缝集成以及其他高级
阅读更多2024-11-14
计算机网络：运输层 —— TCP 协议概述与 TCP 报文段首部格式
传输控制协议（Transmission Control Protocol，TCP）协议是互联网上最常用的传输层协议之一，它负责提供可靠的端到端数据传输服务。TCP 协议采用连接导向的通信方式，通过三次
阅读更多2024-11-14
MySQL常见面试题
MySQL常见面试题
阅读更多2024-11-14
《Redis 实战基础、持久化机制及与 MySQL 一致性解决方案》
本文探讨了Redis的持久化机制及其在不同场景下的应用，并简要介绍了与MySQL数据同步的一致性解决方案。希望这些内容能帮助读者更好地理解和使用Redis，提升应用系统的性能和可靠性。
阅读更多2024-11-14

Pandas 33个冷知识 0719

Pandas 33个冷知识

相关文章