数据预处理
1.创建人工数据集,并存储在csv(逗号分隔值)文件
import os
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w')as f:
f.write('NumRooms,Alley,Price\n')
f.write('NA,Pave,127500\n')
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
2.从创建的csv文件加载原始数据集
import pandas as pd
data = pd.read_csv(data_file)
print(data)
import pandas as pd
data = pd.read_csv(data_file)
data
3.为了处理缺失的数据,典型的方法包括插值和删除。比如插值
inputs = inputs.apply(pd.to_numeric, errors='coerce')
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)
4.对于inputs中的类别值或离散值,将“NaN”视为一个类别
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
5.现在inputs和outputs的所有条目都是数值类型,可以转换为张量格式
import torch
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
原文地址:https://blog.csdn.net/m0_56065966/article/details/143025190
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!