数据重塑：长宽数据转换【基于tidyr】

🕗 发布于 2024-11-12 14:48 信息可视化数据分析 r语言

在这里插入图片描述

在数据分析和可视化过程中，数据的组织形式直接影响着我们能够进行的分析类型和可视化效果。这里简单介绍两种常见的数据格式：长格式（Long Format）和宽格式（Wide Format），以及如何使用tidyr包进行转换。

什么是长格式和宽格式数据？

宽格式（Wide Format）

每个观测单位占用一行
每个变量占用一列
适合人类直观阅读
常见于Excel表格

例如，一个记录学生各科成绩的宽格式数据：

# 宽格式数据示例
student_scores_wide <- data.frame(
  student_id = c(1, 2, 3),
  math = c(85, 92, 78),
  english = c(92, 88, 95),
  science = c(90, 85, 88)
)

长格式（Long Format）

每个观测值占用一行
包含标识变量和值变量
适合统计分析和可视化
符合"整洁数据"原则

同样的数据在长格式下的表现：

# 长格式数据示例
student_scores_long <- data.frame(
  student_id = rep(1:3, each = 3),
  subject = rep(c("math", "english", "science"), 3),
  score = c(85, 92, 90, 92, 88, 85, 78, 95, 88)
)

为什么需要进行格式转换？

可视化需求：
- ggplot2更适合处理长格式数据
- 某些图形（如多系列折线图）需要长格式数据
统计分析：
- 许多统计函数需要特定格式的数据
- 长格式更适合进行分组统计和建模
数据整理：
- 不同来源的数据可能格式不同
- 需要统一格式进行合并或比较

使用tidyr进行转换

宽转长（Wide to Long）

使用 pivot_longer() 函数：

library(tidyr)
library(dplyr)

# 创建示例数据
sales_wide <- data.frame(
  store = c("A", "B", "C"),
  jan = c(100, 120, 90),
  feb = c(110, 130, 95),
  mar = c(120, 140, 100)
)

# 转换为长格式
sales_long <- sales_wide %>%
  pivot_longer(
    cols = jan:mar,           # 要转换的列
    names_to = "month",       # 新的分类变量名
    values_to = "sales"       # 新的数值变量名
  )

长转宽（Long to Wide）

使用 pivot_wider() 函数：

# 转回宽格式
sales_wide_again <- sales_long %>%
  pivot_wider(
    names_from = month,      # 作为新列名的变量
    values_from = sales      # 填充值的来源变量
  )

实际案例：销售数据可视化

让我们通过一个完整的例子来展示数据转换和可视化的过程：

library(ggplot2)
library(tidyr)
library(dplyr)

# 创建示例数据
sales_data <- data.frame(
  store = rep(c("Store A", "Store B"), each = 12),
  month = rep(1:12, 2),
  sales_2022 = c(100, 110, 120, 115, 125, 130, 140, 145, 135, 130, 120, 110,
                 90, 95, 100, 105, 110, 115, 120, 125, 115, 110, 100, 95),
  sales_2023 = c(110, 120, 130, 125, 135, 140, 150, 155, 145, 140, 130, 120,
                 100, 105, 110, 115, 120, 125, 130, 135, 125, 120, 110, 105)
)

# 转换为长格式
sales_long <- sales_data %>%
  pivot_longer(
    cols = starts_with("sales"),
    names_to = "year",
    values_to = "sales",
    names_prefix = "sales_"
  )

# 创建可视化
ggplot(sales_long, aes(x = month, y = sales, color = year, linetype = store)) +
  geom_line() +
  geom_point() +
  scale_x_continuous(breaks = 1:12) +
  labs(title = "Monthly Sales Comparison by Store and Year",
       x = "Month",
       y = "Sales",
       color = "Year",
       linetype = "Store") +
  theme_minimal()

最佳实践建议

保持一致性：
- 在项目中统一使用相同的数据格式
- 建立清晰的数据处理流程
命名规范：
- 使用有意义的变量名
- 保持命名风格的一致性
数据质量：
- 转换前检查缺失值
- 验证转换后的数据完整性
文档记录：
- 记录数据转换的步骤
- 说明转换的原因和目的

常见问题解决

处理缺失值：

# 使用values_drop_na参数处理缺失值
pivot_longer(..., values_drop_na = TRUE)

处理多个标识符：

# 保持多个ID列不变
pivot_longer(..., id_cols = c("id1", "id2"))

处理复杂列名：

# 使用正则表达式处理列名
pivot_longer(
  cols = matches("\\d{4}"),  # 匹配年份
  names_to = "year",
  values_to = "value"
)

总结

掌握长宽数据格式的转换是数据分析中的重要技能。通过tidyr包提供的工具，我们可以灵活地在不同格式之间转换，从而更好地满足分析和可视化的需求。记住，选择哪种格式主要取决于你的具体需求：

需要创建可视化？使用长格式
需要人工检查数据？使用宽格式
需要进行统计分析？根据具体分析方法选择合适的格式

原文地址：https://blog.csdn.net/weixin_46128755/article/details/143693075

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SpringBoot开发——Spring Boot 3.3整合RabbitMQ构建高效稳定的消息队列系统
下一篇：在心理学研究中实施移动眼动追踪：实用指南

安装luasocket模块时提示“sudo: luarocks：找不到命令“问题，该如何解决？
袁庭新分享一个我在使用luarocks来安装luarocks模块报错的解决方法。
阅读更多2024-11-14
嵌入式开发套件(golang版本)
嵌入式开发套件(golang版本)
阅读更多2024-11-14
网上商城系统：Spring Boot框架的应用
开发的程序面向用户的只是程序的功能界面，让用户操作程序界面的各个功能，那么很多人就会问，用户使用程序功能生成的数据信息放在哪里的？图2.2展示的就是MySQL的架构图。此网上商城系统利用当下成熟完善的
阅读更多2024-11-14
【监控】如何调出电脑的中摄像头，从摄像头获取视频流
这段 Python 代码使用了 OpenCV 库（cv2）实现了从摄像头获取视频流，并实时显示视频画面，直到用户按下键盘上的q键时停止显示并释放相关资源的功能。
阅读更多2024-11-14
【Jenkins实战】Windows安装服务启动失败
如果遇上了，千万别点多次重试，尤其是你要用的账号是你现在登桌面的账号。多次netlogon登录失败会导致账号被锁，与输入错误密码多次同理。先点一次Local System account，点OK。然后
阅读更多2024-11-14
汽车免拆诊断案例 | 2016款福特蒙迪欧车发动机怠速不稳
一辆16款福特蒙迪欧车，车辆行驶正常但车主反映怠速有轻微的抖动，但车辆没有存储任何故障代码。这该从何查起，又应如何确认故障呢？
阅读更多2024-11-14
Node.js 版本管理的最终答案 Volta
对于存在的每个文件，volta 安装程序将对其进行修改，以包含定义 VOLTA_HOME 的行，并将 $VOLTA_HOME/bin 添加到 PATH 环境变量中。使用 Volta，你可以在手动给项目
阅读更多2024-11-14
Hive1.2.1与Hbase1.4.13集成---版本不兼容问题
hive与hbase集成中遇到版本冲突问题，执行insert overwrite等命令频繁出错，不要怕，本文章将一步步教你如何解决
阅读更多2024-11-14
hadoop报错找不到主类
1.输入命令 hadoop classpath配置好了hadoop环境变量，这个命令在哪个目录下执行都可以。2.将输出的内容直接复制到yarn-site.xml文件中,在hadoop/etc/hado
阅读更多2024-11-14
大数据新视界 -- 大数据大厂之 Impala 性能提升：高级执行计划优化实战案例（下）（18/30）
本文围绕 Impala 高级执行计划优化实战案例展开，包括金融风险评估、电商营销分析、医疗疾病预测等，阐述优化过程与效果、面临挑战与应对策略，含丰富代码与表格。
阅读更多2024-11-14