【Pytorch】torch.utils.data模块

🕗 发布于 2024-11-18 14:33 python pytorch 深度学习

torch.utils.data模块主要用于进行数据集处理，是常用的一个包。在构建数据集的过程中经常会用到。要使用data函数必须先导入：

from torch.utils import data

下面介绍几个经常使用到的类。

torch.utils.data.DataLoader

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
           batch_sampler=None, num_workers=0, collate_fn=None,
           pin_memory=False, drop_last=False, timeout=0,
           worker_init_fn=None, *, prefetch_factor=2,
           persistent_workers=False)

DataLoader构造函数最重要的参数是 dataset，它指示要从中加载数据的数据集对象。PyTorch 支持两种不同类型的数据集——映射式数据集和可迭代式数据集。

映射式数据集是Dataset 子类的实例，它实现了 __getitem__() 和 __len__() 协议，它表示从索引/键值到数据样本的映射。例如，当使用 dataset[idx] 访问此类数据集时，它可以从磁盘上的文件夹中读取第 idx 幅图像及其对应的标签。

可迭代式数据集是IterableDataset 子类的实例，它实现了 __iter__() 协议，并表示数据样本上的可迭代对象。这种类型的数据集特别适合随机读取代价高昂甚至不可能的情况，以及批大小取决于获取的数据的情况。例如，当调用 iter(dataset) 时，此类数据集可以返回从数据库、远程服务器甚至实时生成的日志中读取的数据流。

torch.utils.data.Dataset

表示一个Dataset的抽象类。所有表示键到数据样本映射的数据集都应该继承它。所有子类都应该重写__getitem__()，支持为给定键获取数据样本。子类还可以选择性地重写__len__()，许多Sampler实现和DataLoader的默认选项都期望它返回数据集的大小。子类还可以选择性地实现__getitems__()，以加速批量样本加载。此方法接受批量样本索引列表并返回样本列表。

代码运用示例：

import torch
from torch.utils.data import Dataset, DataLoader

# 自定义数据集
class SimpleDataset(Dataset):
    def __init__(self, data, labels):
        """
        Args:
            data (list or tensor): 输入数据
            labels (list or tensor): 数据对应的标签
        """
        self.data = torch.tensor(data, dtype=torch.float32)  # 转为张量
        self.labels = torch.tensor(labels, dtype=torch.long)  # 转为张量

    def __len__(self):
        """返回数据集的大小"""
        return len(self.data)

    def __getitem__(self, idx):
        """根据索引返回一个样本"""
        return self.data[idx], self.labels[idx]

# 创建数据和标签
data = [1, 2, 3, 4, 5]
labels = [0, 1, 0, 1, 0]

# 实例化数据集
dataset = SimpleDataset(data, labels)

# 用 DataLoader 加载数据
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 遍历 DataLoader
for batch_data, batch_labels in dataloader:
    print("Data:", batch_data)
    print("Labels:", batch_labels)

运行结果：（顺序会随着Shuffle=True发生变化）

torch.utils.data.IterableDataset

一个可迭代的数据集。所有表示数据样本可迭代的数据集都应该继承它。当数据来自流时，这种形式的数据集特别有用。所有子类都应该重写__iter__()，它将返回此数据集中样本的迭代器。当子类与DataLoader一起使用时，数据集中的每个项目都将从DataLoader迭代器中产生。当num_workers > 0时，每个工作进程将拥有数据集对象的副本，因此通常希望独立配置每个副本以避免工作进程返回重复的数据。get_worker_info()在工作进程中调用时，返回有关工作进程的信息。它可以在数据集的__iter__()方法或DataLoader的worker_init_fn选项中使用来修改每个副本的行为。

代码运用示例：

import torch
from torch.utils.data import IterableDataset, DataLoader

# 自定义 IterableDataset
class NumberStreamDataset(IterableDataset):
    def __init__(self, start, end):
        """
        Args:
            start (int): 起始值
            end (int): 结束值
        """
        self.start = start
        self.end = end

    def __iter__(self):
        """
        定义数据生成逻辑，返回一个迭代器
        """
        for num in range(self.start, self.end):
            yield num

# 创建一个数据集实例
dataset = NumberStreamDataset(start=0, end=10)

# 用 DataLoader 加载数据
dataloader = DataLoader(dataset, batch_size=3)

# 遍历 DataLoader
for batch in dataloader:
    print(batch)

运行结果：

torch.utils.data.TensorDataset(*tensors)

包装张量的数据集。每个样本将通过沿第一个维度索引张量来检索。参数*tensors (张量)表示第一个维度大小相同的张量。

代码运用示例：

import torch
from torch.utils.data import TensorDataset, DataLoader

# 创建输入张量和标签张量
data = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0], [7.0, 8.0]])
labels = torch.tensor([0, 1, 0, 1])

# 使用 TensorDataset 封装数据
dataset = TensorDataset(data, labels)

# 使用 DataLoader 加载数据
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 遍历 DataLoader
for batch_data, batch_labels in dataloader:
    print("Batch data:", batch_data)
    print("Batch labels:", batch_labels)

运行结果：（顺序会随着shuffle=True而发生变化）

torch.utils.data.ConcatDataset(datasets)

将多个数据集连接起来的数据集。此类用于组装不同的现有数据集。参数datasets (序列) 表示要连接的数据集列表

代码运用示例：

import torch
from torch.utils.data import TensorDataset, ConcatDataset, DataLoader

# 创建两个数据集
data1 = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
labels1 = torch.tensor([0, 1])
dataset1 = TensorDataset(data1, labels1)

data2 = torch.tensor([[5.0, 6.0], [7.0, 8.0]])
labels2 = torch.tensor([1, 0])
dataset2 = TensorDataset(data2, labels2)

# 使用 ConcatDataset 拼接两个数据集
concat_dataset = ConcatDataset([dataset1, dataset2])

# 用 DataLoader 加载数据
dataloader = DataLoader(concat_dataset, batch_size=2, shuffle=True)

# 遍历 DataLoader
for batch_data, batch_labels in dataloader:
    print("Batch data:", batch_data)
    print("Batch labels:", batch_labels)

运行结果：

torch.utils.data.Subset(dataset, indices)

指定索引处数据集的子集。参数dataset （Dataset）表示整个数据集，indices (序列) – 为子集选择的整个集合中的索引。

代码运用示例：

import torch
from torch.utils.data import TensorDataset, Subset, DataLoader

# 创建一个原始数据集
data = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0], [7.0, 8.0]])
labels = torch.tensor([0, 1, 0, 1])
dataset = TensorDataset(data, labels)

# 使用 Subset 提取索引为 [1, 3] 的样本
indices = [1, 3]
subset = Subset(dataset, indices)

# 用 DataLoader 加载子集
dataloader = DataLoader(subset, batch_size=1)

# 遍历 DataLoader
for batch_data, batch_labels in dataloader:
    print("Batch data:", batch_data)
    print("Batch labels:", batch_labels)

运行结果：

原文地址：https://blog.csdn.net/weixin_62403234/article/details/143835509

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：劳动力市场
下一篇：炼码LintCode--数据库题库（级别：简单；数量：55道）--刷题笔记_02

PCL 三维重建 RBF移动立方体三维重建算法
RBF（径向基函数）Marching Cubes算法是一种基于RBF插值的方法，用于从点云数据中提取三维表面。这种算法结合了传统的Marching Cubes算法和径向基函数的优势，能够处理复杂的点云
阅读更多2024-11-19
Argo workflow 拉取git 并使用pvc共享文件
第一个任务（拉取 Git 仓库）：这个任务将使用 git 命令克隆指定的 Git 仓库。第二个任务（读取 Git 文件）：这个任务会读取第一个任务拉取的 Git 仓库中的文件。我们将使用 Argo W
阅读更多2024-11-19
java计算机毕业设计选题参考3000篇
【294】springboot+jpa+layui学生住宿管理系统mysql学生寝室分配系统含文档。基于微信小程序的社区车位租赁系统的设计与实现+springboot后台weixin200。【483】
阅读更多2024-11-19
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
阅读更多2024-11-19
三种方式js的引入
1.js的组成部分：BOM(browser object model)浏览器对象模型、DOM(document object model)文档对象模型、ECMAScript。2.js的引入方式:行内式
阅读更多2024-11-19
使用MQTTX连接新版ONENet
使用mqtt连接新版的onenet 教程包含产品创建设备创建，关键参数获取，token软件获取，token生成，mqttx软件的下载与使用数据流的上传等手把手操作帮助你上云
阅读更多2024-11-19
深度学习之其他常见的生成式模型
自回归模型通过对图像数据的概率分布pdataxpdatax进行显式建模，并利用极大似然估计优化模型。pdatax∏i1npxi∣x1x2xi−1pdataxi1∏npxi∣x1x2..
阅读更多2024-11-19
MySQL表的新增与查询
这里的值要和列的个数和类型相匹配使用'或者"来表示字符串。
阅读更多2024-11-19
Vue-组件三大组成&组件通信
style的默认样式是作用到哪里的？scoped的作用是什么？style中推不推荐加scoped？data写成函数的目的是什么？组件通信，就是指组件与组件之间的数据传递组件的数据是独立的，无法直接访问
阅读更多2024-11-19
Python爬虫学习路线精简大纲！！！
Python爬虫学习路线精简大纲！！！
阅读更多2024-11-19

【Pytorch】torch.utils.data模块

torch.utils.data.DataLoader

torch.utils.data.Dataset

torch.utils.data.IterableDataset

torch.utils.data.TensorDataset(*tensors)

torch.utils.data.ConcatDataset(datasets)

torch.utils.data.Subset(dataset, indices)

相关文章