数据分析实战 -----美国人口密度

🕗 发布于 2024-07-23 08:39 数据分析数据挖掘

资源包地址

提取码：6666

步骤

导入库


import numpy as np
import pandas as pd
首先导入文件，并查看数据样本


# 州的全称和州名称简写对应关系表
abb = pd.read_csv('./data/state-abbrevs.csv')
# 州的全称和面积表
areas = pd.read_csv('./data/state-areas.csv')
# 州名称的简写和面积表，包括年龄和年份信息
population = pd.read_csv('./data/state-population.csv')
display(abb.head(), areas.head(), population.head())

合并pop与abbrevs两个DataFrame，分别依据state/region列和abbreviation列来合并。

为了保留所有信息，使用外合并。

# 根据某一列或几列来合并
# 默认合并的规则是查找字段名称相同的列
# 合并的列在内容上，要存在一对一、一对多、多对多的关系
pd.merge(left=population, right=abb, left_on='state/region', right_on='abbreviation', how='inner

看数据是否缺少

abb.abbreviation.unique()
population['state/region'].unique()

# PR USA这两个简称，在abb表中，是不存在的
set(population['state/region'].unique()) - set(abb.abbreviation.unique())

{'PR', 'USA'}

内合并没有，外合并有

temp = pd.merge(left=population, right=abb, left_on='state/region', right_on='abbreviation', how='outer')

# USA不是一个州，是美国的全称
temp.loc[temp['state/region'] == 'USA']

### 查看存在缺失数据的列。

使用.isnull().any()，只有某一列存在一个缺失数据，就会显示True。

### 根据数据是否缺失情况显示数据，如果缺失为True，那么显示
temp.loc[temp.isnull().any(axis=1)]

### 找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值
temp.loc[temp.isnull().any(axis=1), 'state/region'].unique()

### 为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN！

经过分析，只有PR和USA对应的state有空值，所以只需要填写这两组数据即可

USA  -->  USA
PR  -->

# 面积表中存在PR州对应的全称 Puerto Rico
# 简写和全称对应不上关系的时候的处理逻辑？？  业务方确认
set(areas['state']) - set(abb['state'])

{'Puerto Rico'}

temp.loc[temp['state/region'] == 'PR', 'state'] = 'Puerto Rico'
# 查看使得state为空的州还有哪些
temp.loc[temp['state'].isnull(), 'state/region'].unique()

# 由于USA是全美国的数据，不需要保留，可以删除
# 把sate/region == USA的数据删除

usa_index = temp.loc[temp['state/region'] == 'USA'].index
pop_abb = temp.drop(labels=usa_index).copy()
pop_abb.isnull().any()
pop_abb = pop_abb.drop(labels=['abbreviation'], axis=1)

### 继续寻找存在缺失数据的列


# 由于2000年之前，并没有统计过PR州的人口数据，所以删除
pop_abb.loc[pop_abb.population.isnull()]
pop_abb.isnull().any()
pop_abb.dropna().isnull().any()

# 删除人口为空的所有行

pop_abb.dropna(inplace=True)
pop_abb.head()

areas.head()

# 使用外合并，保证数据的完整

total = pd.merge(left=pop_abb, right=areas, how='outer')
### 找出2010年的全民人口数据,df.query(查询语句)
pop_2010_total = total.query('year == 2010 & ages == "total"')
或者
con1 = total.year == 2010
con2 = total.ages == 'total'
total.loc[con1 & con2]

### 对查询结果进行处理，以state列作为新的行索引:set_index


total['density'] = total['population']/total['area (sq. mi)']
total

density_df = total.query('year == 2012 & ages == "total"').sort_values('density', ascending=False)
density_df.set_index('state').head()

原文地址：https://blog.csdn.net/yanminghe66666/article/details/140620480

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：便携式自动气象站：科技赋能气象观测
下一篇：.netcore TSC打印机打印

【已为网站上传证书,却显示不安全】
【已为网站上传证书,却显示不安全】
阅读更多2024-11-16
Jtti：服务器总是自动重启怎么办?
1.查看系统日志：通过查看系统日志文件(如/var/log/syslog、/var/log/messages或Windows Event Viewer)获取错误信息，找出重启原因。解决方案：查看系统日
阅读更多2024-11-16
Scala的Array(1)
Scala的Array表示长度不可变的数组，若需要定义可变数组需要倒包。
阅读更多2024-11-16
Scala中的Array
Array是一种在Scala中用于存储固定大小，相同类型元素的数据结构，Array是可变。类型有两种：Array表示长度不可变的数组，和ArrayBuffer表示长度可变的数组。(一)Array的定义
阅读更多2024-11-16
llama factory lora 微调 qwen2.5 7B Instruct模型
项目背景甲方提供一台三卡4080显卡需要进行qwen2.5 7b Instruct模型进行微调。以下为整体设计。要使用对进行，流程与之前提到的模型类似。LoRA 微调是一种高效的微调方法，通过低秩
阅读更多2024-11-16
大数据中的时序数据，以及时序数据架构设计解决方案
时序数据架构设计需根据具体的应用场景、数据量和实时性要求来选择合适的方案。如果数据量较小且不需要实时处理，关系型数据库可能足够；如果数据量大且需要高效实时查询，可以选择时序数据库；而对于大规模分布式处
阅读更多2024-11-16
Linux网络——网络初识
在谈及网络之前，我们要先对学的知识有一个了解网络的本质就是获取数据，而系统的本质就是加工数据。
阅读更多2024-11-16
革新预测领域：频域融合时间序列预测，深度学习新篇章，科研涨点利器
2024发论文&模型涨点之——频域+时间序列频域+时间序列不仅能提供更丰富的信息，还能提高模型性能和预测准确性。对于论文er来说，是个可发挥空间大、可挖掘创新点多的研究方向。当前，学术界的目光
阅读更多2024-11-16
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
阅读更多2024-11-16
推荐一款来自韩国的影音全能播放器：KMPlayer播放器
来自韩国的影音全能播放器，与Mplayer一样从linux平台移植而来的Kmplayer(简称KMP)几乎可以播放您系统上所有的影音文件。通过各种插件扩展KMP可以支持层出不穷的新格式。强大的插件功能
阅读更多2024-11-16

数据分析实战 -----美国人口密度

资源包地址

步骤

导入库

相关文章