数据预处理

🕗 发布于 2024-10-17 21:01 深度学习 pytorch 人工智能

1.创建人工数据集，并存储在csv（逗号分隔值）文件

import os

os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w')as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')

2.从创建的csv文件加载原始数据集

import pandas as pd

data = pd.read_csv(data_file)
print(data)

import pandas as pd

data = pd.read_csv(data_file)
data

3.为了处理缺失的数据，典型的方法包括插值和删除。比如插值

inputs = inputs.apply(pd.to_numeric, errors='coerce')
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

4.对于inputs中的类别值或离散值，将“NaN”视为一个类别

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

5.现在inputs和outputs的所有条目都是数值类型，可以转换为张量格式

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

原文地址：https://blog.csdn.net/m0_56065966/article/details/143025190

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Shell编程-for循环
下一篇：香橙派 orangepi5max 安装realsense d435i驱动

【VUE】Vue中的内置组件
Vue中的内置组件
阅读更多2024-10-18
【算法与设计分析】第1关：找零钱问题
解决问题的方法是使用贪心算法（Greedy Algorithm）。具体来说，是从最大面值开始，尽可能多地使用该面值，然后用剩余的金额重复这个过程，直到金额为零。使用一个 for 循环，遍历 denom
阅读更多2024-10-18
【Linux】Linux下进程Vs线程
用户态 fork() ---->内核态fork()------>kernel_clone() ---->copy_process()
阅读更多2024-10-18
C++学习--＞类和对象
class 作为类的关键字，在关键字后加上类的名字，{} 中为类的主体，且类定义结束后的分号不能省略。类中的内容作为类的成员：类中的变量作为类的属性或成员变量、类中的函数称为类的方法或成员函数。为区分
阅读更多2024-10-18
11. 盛最多水的容器
一个容器所能盛的最大水容量取决于构成这个容器最短那条线的高度。
阅读更多2024-10-18
ubuntu安装Redis
【代码】ubuntu安装Redis。
阅读更多2024-10-18
OpenCV和HALCON
OpenCV适合需要灵活、可扩展、低成本解决方案的项目，尤其是学术研究、机器人、计算机视觉和人工智能开发。HALCON适合工业应用，特别是在高精度要求、实时处理和复杂视觉检测任务中有优势。对于有预算的
阅读更多2024-10-18
三维视频融合技术在隧道交通场景中的应用
针对目前隧道数字化运营管理中存在的视频碎片化、视频与业务数据分离、缺乏二三维联动响应手段等问题,提出一种基于三维视频融合的隧道运营管理创新应用方法
阅读更多2024-10-18
Scala链式风格
【代码】Scala链式风格。
阅读更多2024-10-18
MySQL—关于数据库的CRUD—（增删改查）
数据库程序分为客户端与服务器端两部分，客户端用于接收用户的操作信息并向服务端发送“请求”，服务器端接收客户端发来的请求，并执行相应的操作并对其进行“响应”。
阅读更多2024-10-18

数据预处理

相关文章