Pandas-3：数据输入与输出

🕗 发布于 2024-11-19 13:56 pandas

在数据分析过程中，数据的来源多种多样，包括CSV文件、Excel表格、JSON文件、SQL数据库等。本章将系统讲解如何利用Pandas高效地加载和保存这些数据文件.

1.1 读取数据

Pandas支持读取多种数据格式，包括常见的文本文件、表格文件和数据库。

1.1.1 读取CSV文件

CSV（Comma-Separated Values）是最常见的数据存储格式之一，Pandas通过read_csv方法读取CSV文件。

import pandas as pd

# 读取本地CSV文件
df = pd.read_csv('data.csv')
print(df)

# 指定分隔符
df = pd.read_csv('data.csv', sep=';')

# 只读取前N行
df = pd.read_csv('data.csv', nrows=10)

# 忽略某些列
df = pd.read_csv('data.csv', usecols=['Name', 'Age'])

# 设置编码方式
df = pd.read_csv('data.csv', encoding='utf-8')

1.1.2 读取Excel文件

Pandas通过read_excel方法读取Excel文件，需要安装相关依赖库，如openpyxl。

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 指定工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 指定某些列
df = pd.read_excel('data.xlsx', usecols=['Name', 'Age'])

# 跳过指定行数
df = pd.read_excel('data.xlsx', skiprows=2)

1.1.3 读取JSON文件

JSON（JavaScript Object Notation）是常用的数据交换格式，Pandas通过read_json方法读取JSON文件。

# 读取JSON文件
df = pd.read_json('data.json')

# 从URL读取JSON数据
df = pd.read_json('https://example.com/data.json')

1.1.4 读取SQL数据库

Pandas可以通过read_sql方法从SQL数据库中加载数据，依赖于sqlalchemy或sqlite3等库。

import sqlite3

# 创建数据库连接
conn = sqlite1.connect('data.db')

# 从SQL查询结果中读取数据
df = pd.read_sql('SELECT * FROM users', conn)

# 关闭连接
conn.close()

1.2 写入数据

Pandas支持将数据写入多种格式的文件，以下是常见的写入方法。

1.2.1 写入CSV文件

使用to_csv方法保存数据到CSV文件。

# 保存为CSV文件
df.to_csv('output.csv', index=False)

# 自定义分隔符
df.to_csv('output.csv', sep=';')

# 保存部分列
df.to_csv('output.csv', columns=['Name', 'Age'])

1.2.2 写入Excel文件

使用to_excel方法保存数据到Excel文件。

# 保存为Excel文件
df.to_excel('output.xlsx', index=False)

# 自定义工作表名
df.to_excel('output.xlsx', sheet_name='DataSheet')

1.2.3 写入JSON文件

使用to_json方法保存数据到JSON文件。

# 保存为JSON文件
df.to_json('output.json', orient='records', lines=True)

1.2.4 写入SQL数据库

使用to_sql方法将数据保存到SQL数据库。

from sqlalchemy import create_engine

# 创建数据库引擎
engine = create_engine('sqlite:///data.db')

# 将数据保存到SQL数据库
df.to_sql('users', engine, index=False, if_exists='replace')

1.3 文件处理中的常见问题

1.1.1 文件路径问题

在读取或保存文件时，应注意文件路径的正确性：

使用绝对路径避免路径错误。
通过os模块动态获取路径。

import os

# 获取当前目录
current_dir = os.getcwd()

# 动态生成路径
file_path = os.path.join(current_dir, 'data.csv')
df = pd.read_csv(file_path)

1.1.2 编码问题

文件编码错误可能导致读取失败，常见的解决方法：

明确指定文件编码，如utf-8或latin1。
使用chardet库检测文件编码。

import chardet

# 检测文件编码
with open('data.csv', 'rb') as f:
    result = chardet.detect(f.read())
print(result['encoding'])

# 指定正确编码读取
df = pd.read_csv('data.csv', encoding=result['encoding'])

1.1.3 数据完整性

使用na_values参数指定缺失值标记。
在写入文件时检查是否丢失数据。

# 读取时处理缺失值
df = pd.read_csv('data.csv', na_values=['N/A', 'NA'])

# 检查写入文件是否完整
df.to_csv('output.csv', index=False)

原文地址：https://blog.csdn.net/imdeity/article/details/143855239

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：安装MySQL主备服务
下一篇：gvim添加至右键、永久修改配置、放大缩小快捷键、ctrl + c ctrl +v 直接复制粘贴、右键和还原以前版本(V)冲突

【AI技术赋能有限元分析应用实践】Abaqus2024 自带 Python 环境中安装第三方库
安装并升级了pip，现在可以使用pip来管理 Abaqus Python 环境中的 Python 包。尽管安装成功，但你看到的警告信息表示pip的脚本路径不在系统的PATH环境变量中，因此在命令行中直
阅读更多2024-11-26
uniapp 地图移入的快，高亮显示两个
解决：
阅读更多2024-11-26
yolov11的目标检测理论、tensorrt实现推理
2.1 环境搭建2.2 训练代码2.3 推理代码2.4 模型转换。
阅读更多2024-11-26
设计模式——抽象工厂模式
抽象工厂模式是一种创建型设计模式。它提供了一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。简单来说，抽象工厂就像是一个工厂的抽象蓝图，这个蓝图定义了生产一组产品的方法，但具体怎么生产这
阅读更多2024-11-26
C# 中的 LINQ：简化数据查询和处理
LINQ（Language Integrated Query）是一种语言集成查询功能，允许你在 C# 中使用 SQL 风格的查询语句来操作数据集合。LINQ 支持多种数据源，包括内存中的集合、XML
阅读更多2024-11-26
《高斯金字塔与拉普拉斯金字塔原理、操作及实用经验分享》
本文全面深入地介绍图像金字塔相关知识，涵盖图像下采样、上采样原理，详细讲解高斯金字塔（包括 cv2.pyrDown 和 cv2.pyrUp 操作及示例代码）与拉普拉斯金字塔（构建及还原原理与代码演示）
阅读更多2024-11-26
微表情识别系统
面部表情图像预处理是面部表情识别的重要步骤,主要目的是在于提取特征之前排除一切与面部表情无关的干扰因素。例如,环境光照、姿势和不同背景等。在干扰排除后,将人类面部直接与公共参考系相对接、使每个面部特征
阅读更多2024-11-26
Linux关于vim的笔记
在两行内替换所有的字符串 old 为新的字符串 new，请输入 :#,#s/old/new/g。2. :w FILENAME 可将当前 VIM 中正在编辑的文件保存到名为 FILENAME 的文。
阅读更多2024-11-26
Docker--通过Docker容器创建一个Web服务器
Web服务器可以向浏览器等Web客户端提供文档，也可以放置网站文件以供全世界浏览，或放置数据文件以供全世界下载。Web服务器的主要功能是提供网上信息浏览服务，它使用HTTP（超文本传输协议）与客户机浏
阅读更多2024-11-26
keepalived双机热备方案实现Nginx高可用
Nginx高可用方案实践
阅读更多2024-11-26