自学内容网 自学内容网

数据预处理

1.创建人工数据集,并存储在csv(逗号分隔值)文件

import os

os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w')as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')

2.从创建的csv文件加载原始数据集

import pandas as pd

data = pd.read_csv(data_file)
print(data)

import pandas as pd

data = pd.read_csv(data_file)
data

3.为了处理缺失的数据,典型的方法包括插值和删除。比如插值

inputs = inputs.apply(pd.to_numeric, errors='coerce')
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

4.对于inputs中的类别值或离散值,将“NaN”视为一个类别

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

5.现在inputs和outputs的所有条目都是数值类型,可以转换为张量格式

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y


原文地址:https://blog.csdn.net/m0_56065966/article/details/143025190

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!