项目开发--基于docker实现模型容器化服务

🕗 发布于 2024-10-13 15:28 docker 容器

背景

1、docker-compose build 和 docker-compose up -d分别是什么作用？
2、如何进入新构建的容器当中
3、模型保存的方法区别
4、如何让docker容器启动的时候能使用cuda进行模型推理加速
5、如何实现容器的迭代

解决方案

问题1

docker-compose build 和 docker-compose up -d 是 Docker Compose 命令，用于构建和管理多容器 Docker 应用程序。它们的作用如下：

docker-compose build

作用：构建 Docker 镜像。
使用场景：当你对 Dockerfile 或 docker-compose.yml 文件进行了更改（例如更新了依赖项或修改了构建指令）时，需要重新构建镜像。
详细说明：
这个命令根据 Dockerfile 文件中的指令构建 Docker 镜像，并根据 docker-compose.yml 文件中的服务定义来执行构建过程。
构建过程中 Docker 会从 Dockerfile 中读取指令，例如安装依赖、复制文件等，并生成一个新的镜像。
这个命令不会启动容器，只是创建或更新镜像。

docker-compose up -d

作用：启动或重新启动 Docker 容器。
使用场景：当你想启动定义在 docker-compose.yml 文件中的服务（容器）时，使用这个命令。
详细说明：
-d 参数表示在后台（detached mode）启动容器，这样你不会被容器的日志信息干扰。如果不使用 -d，容器会在前台运行，日志会输出到你的终端。
如果镜像尚未构建或已更改，docker-compose up 会自动调用 docker-compose build 来构建镜像，然后启动容器。
启动时，Docker Compose 会创建或启动 docker-compose.yml 文件中定义的服务容器，并将它们连接到指定的网络和卷（volumes）。
总结
docker-compose build：用于构建 Docker 镜像，通常在修改 Dockerfile 或 requirements.txt 后使用。
docker-compose up -d：用于启动或重新启动容器，并在后台运行它们。
通常，工作流程是先使用 docker-compose build 构建镜像，然后使用 docker-compose up -d 启动容器。如果只是更新了代码或配置文件而不修改 Dockerfile，直接使用 docker-compose up -d 也可以自动构建镜像并启动容器。

问题2

要进入新构建的 Docker 容器，你可以使用以下步骤：

查找容器 ID 或名称
首先，你需要找到你想要进入的容器的 ID 或名称。使用以下命令列出所有运行中的容器：

docker ps

这将显示一个容器列表，包括容器的 ID、名称和其他信息。

使用 docker exec 进入容器
一旦你找到了容器的 ID 或名称，你可以使用 docker exec 命令进入容器的交互式 shell。例如，如果你想进入一个名为 my_container 的容器，可以运行：

docker exec -it my_container /bin/bash

或，如果容器使用 sh 而不是 bash，可以运行：

docker exec -it my_container /bin/sh

示例
假设你有一个容器 ID 为 abc123，可以使用：

docker exec -it abc123 /bin/bash

在 Dockerfile 中使用非 root 用户
如果你在 Dockerfile 中创建了一个非 root 用户，并且想以该用户身份进入容器，可以指定用户：

docker exec -it --user <username> my_container /bin/bash

注意事项
-it 参数：-i 代表交互模式（interactive），-t 代表分配一个伪终端（pseudo-TTY），这两个参数通常一起使用。
Shell 类型：不同的容器可能使用不同的 shell（例如 /bin/bash、/bin/sh），你需要根据实际情况选择合适的 shell。

问题3

使用pickle和使用torch.save保存的模型有什么区别？

pickle 和 torch.save 是两种不同的序列化方法，它们在保存模型时有一些关键的区别：

库和用途：

pickle 是 Python 标准库中的一个模块，用于序列化和反序列化 Python 对象结构，它不仅限于 PyTorch 模型，可以用于任何 Python 对象。
torch.save 是 PyTorch 库提供的一个函数，专门用于保存 PyTorch 模型和张量。它不仅保存模型的参数，还可以保存模型的结构。
兼容性：

使用 pickle 保存的模型在不同版本的 Python 或 PyTorch 之间可能会遇到兼容性问题，因为 pickle 格式可能会随着 Python 版本的更新而改变。
torch.save 通常提供了更好的向后兼容性，尤其是在 PyTorch 的不同版本之间。
效率：

torch.save 通常在保存 PyTorch 模型时更加高效，因为它是专门为 PyTorch 数据类型设计的。
pickle 可能在处理大型模型或张量时不如 torch.save 高效。
安全性：

pickle 可以序列化几乎所有的 Python 对象，包括那些可能执行任意代码的对象。因此，如果从不可信任的源加载 pickle 文件，可能会有安全风险。
torch.save 只处理 PyTorch 相关的数据，相对来说更安全。
使用场景：

如果你需要在不同的 Python 环境或项目中共享模型，或者需要序列化非 PyTorch 对象，可能会选择 pickle。
对于 PyTorch 模型，通常推荐使用 torch.save，因为它提供了更好的兼容性和效率。
模型结构保存：

使用 pickle 可能无法正确保存模型的结构，特别是如果模型定义在保存和加载时不可见（例如，模型定义在某个特定的脚本中，而该脚本在加载模型时未被执行）。
torch.save 允许你保存模型的结构，这样即使模型定义在加载时不可用，也可以正确地恢复模型。
总结来说，对于 PyTorch 模型，推荐使用 torch.save，因为它提供了更好的兼容性、效率和安全性。而 pickle 更适合通用的 Python 对象序列化，但需要注意安全性和兼容性问题。

问题4

要让 Docker 容器启动时能够使用 CUDA 进行模型推理加速，您需要确保以下几个方面：

安装 NVIDIA Docker 支持
NVIDIA Docker（nvidia-docker）提供了对 NVIDIA GPU 的支持，并允许 Docker 容器访问主机上的 GPU。您需要安装 NVIDIA Container Toolkit。

安装 NVIDIA Container Toolkit
添加 NVIDIA 的软件包源：

sudo mkdir -p /etc/systemd/system/docker.service.d

创建文件 /etc/systemd/system/docker.service.d/override.conf，内容如下：

[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=nvidia=/usr/bin/nvidia-container-runtime

安装 NVIDIA Container Toolkit：

sudo apt-get update
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker

验证安装：
使用以下命令验证 NVIDIA 运行时是否可用：

docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

这应该会显示您 GPU 的信息。

编写 Dockerfile 使用 CUDA
确保 Dockerfile 使用了正确的 CUDA 基础镜像，并且安装了必要的 CUDA 库和驱动。以下是一个基本示例 Dockerfile：

# 使用 NVIDIA 的 CUDA 镜像作为基础镜像
FROM nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu20.04

# 安装 Python 和其他依赖
RUN apt-get update && apt-get install -y \
    python3-pip \
    python3-dev \
    && rm -rf /var/lib/apt/lists/*

# 设置工作目录
WORKDIR /opt

# 复制 requirements 文件并安装 Python 包
COPY requirements.txt ./
RUN pip3 install -r requirements.txt

# 复制项目文件
COPY . .

# 设置容器启动命令
CMD ["python3", "main.py"]

配置 Docker Compose 使用 GPU
在 docker-compose.yml 文件中，配置使用 GPU 资源。以下是一个示例：

version: "3.8"

services:
  web:
    build: .
    ports:
      - "8890:8890"
    restart: always
    volumes:
      - ".:/opt/"
    working_dir: "/opt/"
    command: uvicorn main:app --reload --host 0.0.0.0 --port 8890
    runtime: nvidia
    deploy:
      resources:
        reservations:
          devices:
            - driver: "nvidia"
              count: all
              capabilities: [gpu]

运行 Docker 容器
使用 docker-compose 启动容器：

docker-compose up -d

在代码中检查 GPU 可用性
确保您的模型代码中能够识别和使用 GPU。例如，如果使用 PyTorch，可以通过以下代码检查 GPU 是否可用：

import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Using device: {device}')

对于 TensorFlow，可以使用：

import tensorflow as tf

print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))

总结
安装 NVIDIA Container Toolkit 以支持 Docker 容器使用 GPU。
编写 Dockerfile 使用 CUDA 基础镜像，并安装必要的 CUDA 库。
配置 Docker Compose 使用 GPU 资源。
验证和运行容器确保 GPU 可以被正确识别和使用。
通过这些步骤，您应该能够在 Docker 容器中启用 CUDA 加速进行模型推理。

问题5

在使用 docker-compose 时，容器的迭代包括了容器的启动与关闭、版本控制以及持久化存储。以下是如何实现这些迭代的步骤：

docker-compose down
docker-compose build
docker-compose up -d

容器的启动与关闭
启动容器：

docker-compose up -d

这个命令会启动 docker-compose.yml 文件中定义的服务，-d 参数表示在后台运行。

停止容器：

docker-compose down

这个命令会停止所有由 docker-compose.yml 定义的服务，并可以选择性地移除网络和数据卷。

重启容器：

docker-compose restart

这个命令会重启所有服务。

关闭并移除容器：

docker-compose down --volumes

这个命令会停止容器并移除容器，–volumes 参数表示同时移除数据卷。

版本号
在 docker-compose 中，版本号通常与使用的 Docker 镜像版本相关。你可以在 docker-compose.yml 文件中指定使用特定版本的镜像：

services:
  your-service:
    image: your-image:1.0.0

当你需要更新服务到新版本时，只需更改版本号并重新部署：

docker-compose up -d

持久化存储
在 docker-compose.yml 中，你可以定义数据卷来实现持久化存储：

volumes:
  your-volume:

services:
  your-service:
    volumes:
      - your-volume:/path/in/container

创建数据卷：
docker-compose up -d 时，如果数据卷不存在，docker-compose 会自动创建。

访问数据卷：
在服务中，你可以通过挂载的数据卷路径来访问持久化的数据。

备份数据卷：
你可以使用 docker-compose down -v 来备份数据卷，这会停止服务并删除容器，但保留数据卷。

迁移数据卷：
如果需要迁移数据卷，可以使用 docker-compose 的卷驱动或手动复制数据。

版本控制：
对于 docker-compose.yml 文件本身，你可以使用版本控制系统（如 Git）来管理其变更历史。每次更新配置或服务后，提交更改到版本控制系统。

原文地址：https://blog.csdn.net/bw876720687/article/details/141859540

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

AI+智慧电池数据集
6+智慧电池AI数据集，涉及电池充放电、烟雾检测、隔膜检测、生产温度预测等多应用领域
阅读更多2024-10-15
【力扣刷题实战】链表的中间结点
文章目录目录力扣题目：链表的中间结点题目描述示例 1：示例 2：解题思路问题理解算法选择具体思路解题要点完整代码（C语言）兄弟们共勉！！！每篇前言
阅读更多2024-10-15
深入理解UML类图：掌握类与关系的设计奥秘
类表示系统中的一种实体，主要是由名称、属性和操作组成。在UML中，类表达成一个有三个分隔区的矩形。其中顶端显示类名，中间显示类的属性，尾端显示类的操作。1、类必须各自有不同的类名称正体书写：可以实例化
阅读更多2024-10-15
【makefile】项目管理make & 基本用法
刚才提及的都是编译的目标，所以应该都是输出文件作为目标，而输出文件多多少少都会有依赖文件，而伪目标不是文件，所以他一定没有依赖/这么说其实太绝对后面其实发现不一定。有了伪目标之后，makefile的目
阅读更多2024-10-15
Redis日常运维
作为一名资深运维工程师，了解 Redis 的不同架构模式及其优缺点是非常重要的。此外，监控 Redis 的关键指标也是确保其稳定运行的关键。以下是对这些问题的详细解答。
阅读更多2024-10-15
D37【python 接口自动化学习】- python基础之函数
定义变量的参数是实参，调用函数的参数是形参...
阅读更多2024-10-15
大模型时代产品经理攻略：成功必备的几点深度思考_ai时代先上车
随着人工智能技术的飞速发展，大模型时代已经到来，对产品经理提出了更高的要求和挑战。在这个新的时代背景下，产品经理需要不断思考和探索，以适应和引领市场的变化。
阅读更多2024-10-15
如何提高 PCDN 的网络安全防护能力（壹）
可以显著提高 PCDN 的网络安全防护能力，保障内容分发的安全可靠，为用户提供稳定、放心的服务。如果您对PCDN的技术特点、应用场景、市场竞争和成本投入有深入了解，并且认为它符合您的业务需求和市场定位
阅读更多2024-10-15
计算机网络-RSTP快速生成树基础概念
在启动了环路保护功能后，如果根端口或Alternate端口长时间收不到来自上游设备的BPDU报文时，则向网管发出通知信息（此时根端口会进入Discarding状态，角色切换为指定端口），而Altern
阅读更多2024-10-15
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
阅读更多2024-10-15

项目开发--基于docker实现模型容器化服务

背景

解决方案

问题1

问题2

问题3

问题4

问题5

相关文章